GeoBurst+论文记录

最新推荐文章于 2024-07-05 22:47:20 发布

莫八一

最新推荐文章于 2024-07-05 22:47:20 发布

阅读量158

点赞数

分类专栏：事件检测文章标签：数据挖掘推特

本文链接：https://blog.csdn.net/mo8181/article/details/109190465

版权

1 篇文章 0 订阅

订阅专栏

本篇博客主要记录自己学习以及复现GeoBurst+论文的过程，持续记录更新…

GeoBurst+的框架

首先该论文认为将事件的发生地作为中心点，在周围会产生与之相关的推文。我们离中心点越近，越有可能观察到与之相关的推文，基于此使用了地理和语义相似性度量来赋予每个推文权重，，之后找出权重最大的推文作为中心推文，中心推文及其邻居推文就构成了一个候选事件。

地理相似性权重定义
地理位置的影响可以用核函数刻画,两个推文 $d^{'}$ , $d$ 的地理相关性记为 $G$ ( $d^{'}$ $\to$ $d$ )

其中 $h$ 是窗宽（光滑参数）， $c$ 是 $E p a n e c h n i k o v$ 核函数的度量常数
语义相似性权重定义
语义相似性度量是基于在共现图中的随机游走定义的，首先构建共现图，以关键词为节点，两个关键词共同出现的次数作为边的权重建图。之后使用重启随机游走算法（ $r a n d o m w a l k w i t h r e s t a r t, R W R$ ）,从关键词 $u$ 开始，当算法达到稳态分布时，单词 $u$ 到 $v$ 的权重表示为 $r$ ( $e^{'}$ $\to$ $e$ )。则设推文 $d$ 的关键词集合为 $E_d$ = $\{$ $e_1$ , $e_2$ , $\cdots$ , $e_m$ $\}$ ,推文 $d^{'}$ 的关键词集合为 $E_d'$ = $\{$ $e'_1$ , $e'_2$ , $\cdots$ , $e'_m$ $\}$ ,则推文 $d$ 与 $d^{'}$ 的语义相似性度量定义为：
推文权重定义
推文的权重由与之相关的所有推文