Social media usage reveals recovery of small businesses after natural hazard events

今天把另一篇nature也看掉了,这篇nature的逻辑相对而言难度不是那么大,因此看起来就快很多啦。

1.文章目标

这篇文章主要是给出了基于社交媒体数据的一个异常事件发生监测算法,当然该方法也可以计算出异常事件的持续时间。

2.数据

文章主要是使用了facebook数据,卫星数据等一些数据做case来证明该方法的优越及准确,由于该文章侧重方法,对数据要求其实不是很高。以facebook数据为例,对facebook数据信息的利用其实比较少,只用到了每个facebook账号每天发多少posts。

3.具体方法

方法主要分成如下几步,流程图如下图所示:
在这里插入图片描述

  1. 收集好数据,以facebook数据为例,需要知道每天每个facebook账号的发帖数;
  2. 下图是第一个处理,也就是计算得到每个账号在这一年每天发帖数的累计概率函数,然后就可以利用累计概率函数得到 q i ( t ) q_i(t) qi(t),对每个账户求下和就是 r P I T ( t ) r_{PIT}(t) rPIT(t)了。 r P I T ( t ) r_{PIT}(t) rPIT(t)范围是0-1的,而且是各个均匀分布的和。
    在这里插入图片描述
  3. 第二步类似于做一个标准化处理,这一部分应该是全篇最难理解的部分了,上面说了 r P I T ( t ) r_{PIT}(t) rPIT(t)范围是0-1的,而且是各个均匀分布的和,因此它服从欧文-霍尔分布(Irwin-Hall Distribution,又叫均匀和分布 Uniform Sum Distribution),可以看这个链接来进行理解,为什么 r P I T ( t ) r_{PIT}(t) rPIT(t)范围是0-1的,而且是各个均匀分布的和,因此它服从欧文-霍尔分布。然后利用中心极限定理可以知道, r P I T ( t ) r_{PIT}(t) rPIT(t)服从均值为n(t)/2,方差为n(t)/12的正态分布。其实知不知道欧文-霍尔分布都无所谓的,文章这部分写不写都可以,写了其实反而让读者发晕,觉得欧文-霍尔分布和后面利用中心极限定理推出均值方差有关,实际上没啥关系,直接运用中心极限定理就完了。在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
  4. 再次对均值和方差做一次调整,再次去除趋势,其实第二步也可以去除趋势的。因此取了每年的累积概率函数,趋势自然消除了。
    在这里插入图片描述
  5. 再用累积标准正态分布使得范围限定在0-1之间,这一步可能只是为了让结果更好看?不是很清楚。在这里插入图片描述
  6. 接下来就是确定阈值了,阈值的确定使用the elbow method,详见我写的另一篇博客了,因为这个方法感觉可以作为阈值确定的通用方法,所以单独记录了一下,点击这个链接观看。
  7. 小于阈值的就是异常事件了。

4.其他

除此之外的话,文章其实还对好多个地方,几种不同的数据做了实验,证明它方法的效果好。而且也提出了实时在线使用他的这个方法的手段,并验证了准确定也好。

参考文献

Eyre, R., De Luca, F., & Simini, F. (2020). Social media usage reveals recovery of small businesses after natural hazard events. Nature communications, 11(1), 1-10.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值