GeoBurst+论文记录
本篇博客主要记录自己学习以及复现GeoBurst+论文的过程,持续记录更新…
该论文主要有三个模块:
- 产生候选事件
- 基于嵌入学习和活动时间轴的归纳模型建立的二分类
- 在线的更新
一,产生候选事件
首先该论文认为将事件的发生地作为中心点,在周围会产生与之相关的推文。我们离中心点越近,越有可能观察到与之相关的推文,基于此使用了地理和语义相似性度量来赋予每个推文权重, ,之后找出权重最大的推文作为中心推文,中心推文及其邻居推文就构成了一个候选事件。
1,权重定义
- 地理相似性权重定义
地理位置的影响可以用核函数刻画,两个推文 d ′ d' d′, d d d的地理相关性记为 G G G( d ′ d' d′ → \to → d d d)
其中 h h h是窗宽(光滑参数), c c c是 E p a n e c h n i k o v Epanechnikov Epanechnikov核函数的度量常数 - 语义相似性权重定义
语义相似性度量是基于在共现图中的随机游走定义的,首先构建共现图,以关键词为节点,两个关键词共同出现的次数作为边的权重建图。之后使用重启随机游走算法( r a n d o m w a l k w i t h r e s t a r t , R W R random walk with restart ,RWR randomwalkwithrestart,RWR),从关键词 u u u开始,当算法达到稳态分布时,单词 u u u 到 v v v 的权重表示为 r r r( e ′ e' e′ → \to → e e e)。则设推文 d d d的关键词集合为 E d E_d Ed= { \{ { e 1 e_1 e1, e 2 e_2 e2, ⋯ \cdots ⋯ , e m e_m em } \} },推文 d ′ d' d′的关键词集合为 E d ′ E_d' Ed′= { \{ { e 1 ′ e'_1 e1′, e 2 ′ e'_2 e2′, ⋯ \cdots ⋯ , e m ′ e'_m em′ } \} },则推文 d d d与 d ′ d' d′的语义相似性度量定义为:
- 推文权重定义
推文的权重由与之相关的所有推文