今天把另一篇nature也看掉了,这篇nature的逻辑相对而言难度不是那么大,因此看起来就快很多啦。
1.文章目标
这篇文章主要是给出了基于社交媒体数据的一个异常事件发生监测算法,当然该方法也可以计算出异常事件的持续时间。
2.数据
文章主要是使用了facebook数据,卫星数据等一些数据做case来证明该方法的优越及准确,由于该文章侧重方法,对数据要求其实不是很高。以facebook数据为例,对facebook数据信息的利用其实比较少,只用到了每个facebook账号每天发多少posts。
3.具体方法
方法主要分成如下几步,流程图如下图所示:
- 收集好数据,以facebook数据为例,需要知道每天每个facebook账号的发帖数;
- 下图是第一个处理,也就是计算得到每个账号在这一年每天发帖数的累计概率函数,然后就可以利用累计概率函数得到
q
i
(
t
)
q_i(t)
qi(t),对每个账户求下和就是
r
P
I
T
(
t
)
r_{PIT}(t)
rPIT(t)了。
r
P
I
T
(
t
)
r_{PIT}(t)
rPIT(t)范围是0-1的,而且是各个均匀分布的和。
- 第二步类似于做一个标准化处理,这一部分应该是全篇最难理解的部分了,上面说了
r
P
I
T
(
t
)
r_{PIT}(t)
rPIT(t)范围是0-1的,而且是各个均匀分布的和,因此它服从欧文-霍尔分布(Irwin-Hall Distribution,又叫均匀和分布 Uniform Sum Distribution),可以看这个链接来进行理解,为什么
r
P
I
T
(
t
)
r_{PIT}(t)
rPIT(t)范围是0-1的,而且是各个均匀分布的和,因此它服从欧文-霍尔分布。然后利用中心极限定理可以知道,
r
P
I
T
(
t
)
r_{PIT}(t)
rPIT(t)服从均值为n(t)/2,方差为n(t)/12的正态分布。其实知不知道欧文-霍尔分布都无所谓的,文章这部分写不写都可以,写了其实反而让读者发晕,觉得欧文-霍尔分布和后面利用中心极限定理推出均值方差有关,实际上没啥关系,直接运用中心极限定理就完了。
- 再次对均值和方差做一次调整,再次去除趋势,其实第二步也可以去除趋势的。因此取了每年的累积概率函数,趋势自然消除了。
- 再用累积标准正态分布使得范围限定在0-1之间,这一步可能只是为了让结果更好看?不是很清楚。
- 接下来就是确定阈值了,阈值的确定使用the elbow method,详见我写的另一篇博客了,因为这个方法感觉可以作为阈值确定的通用方法,所以单独记录了一下,点击这个链接观看。
- 小于阈值的就是异常事件了。
4.其他
除此之外的话,文章其实还对好多个地方,几种不同的数据做了实验,证明它方法的效果好。而且也提出了实时在线使用他的这个方法的手段,并验证了准确定也好。
参考文献
Eyre, R., De Luca, F., & Simini, F. (2020). Social media usage reveals recovery of small businesses after natural hazard events. Nature communications, 11(1), 1-10.