突发事件检测: kleinberg 状态机模型

本文介绍了Kleinberg的突发事件检测模型,主要用于文档数据流中事件的检测和追踪。通过阈值方法和状态机模型,尤其是Two state及Infinite-state模型,分析文档到达时间的分布,以识别事件的爆发和衰退。文章以“天津爆炸案”和“二胎政策”为例,展示了模型在实际应用中的效果。
摘要由CSDN通过智能技术生成

范涛
发表于2017-04-08

1  背景

      现实中,我们接触到各种文本信息,大多是以相应的事件来组织的。针对每个特定事件,涉及的相关文档都会有相应的时间信息,我们称这种时间信息为文档的到达时间。 那针对某个特定事件,涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息,通过这种时序信息,我们能观察到事件是何时发生的,何时突然爆发,又何时衰退的,比如“天津爆炸案”。在TDT(topic detection and tracking)领域,如何检测和追踪突发事件是一个重要的研究方向。这里重点想分享下这篇文章《Bursty and Hierarchical Structure in Streams》,Kleinberg在2003左右发表的。这篇文章主体思路是根据时间发生的时间序列来建立一种突发检测模型。

    在说这篇文章之前先列举几个问题:

    (1)不同媒体,文档数据流速度不一样,如媒体,email,学术论文期刊。媒体文档数据流速度快,学术论文期刊文档流速度慢;

    (2) 如何通过模型来检测不同媒体,不同数据源下,不同演化速率主题突发行为以及持续周期?

    (3) 特定事件在突发周期里面是否包含多个嵌套的突发行为?


2  模型

2.1 Threshold-based Method

       对同一事件的相关文档的到达时间,按天/小时 进行分箱,每个分箱包含一定文档数。设定文档数阈值,过滤出那些满足阈值条件的时间箱,连续的时间箱组成可以看做一个事件波峰。阈值的设定可以参考: x2分布或者相似的分布检验方式。

                 


       但是这种方法存在如下问题:现实中很多文本数据流是稀疏和噪音的,图中存在一个没有连续7天非零时间箱, 这会导致没法识别突发事件。另外,阈值方法没法检测不同尺度的突发事件,以及检测嵌套的突发事件结构。

2.2 Kleinberg 状态机模型

       看一个例子: 一个Email数据流,文本包含“ITR“这个词,实际发现的突发事件结果。我们发现这个突发事件呈现不同持续周期以及嵌套层次结构。
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值