A Study on Retrospective and On-Line Event Detection

本文研究了事件检测的文本检索和聚类技术的使用和扩展。任务是从时间顺序的新闻故事流中自动检测新事件,要么追溯或要么随着故事的到来。我们应用15836层语料库的分层和非分层文档聚类算法,聚焦于内容和时间信息的发掘。我们发现所得到的聚类层次对于以前未被识别的事件的追溯检测具有高度的信息性,分别支持无查询和查询驱动的检索。我们还发现,文档聚类的时间分布模式提供了有用的信息用于回顾性检测和在线检测新事件的信息。在一个使用人工标记事件评价系统检测到的事件,我们得到了82%的结果F1测量的回顾性检测和F1用于在线检测的值为42%。
前言
可用电子信息迅速增长威胁着人类的注意力,这对信息检索技术提出了新的挑战。虽然传统的查询驱动的检索对于面向内容的查询是有用的,但它是通用的。诸如“发生了什么事”之类的疑问?或者什么是新的?”.无指导浏览或搜索空间的概念结构只在微小的信息空间中是有用的。
考虑一个从延长假期回来的人,需要迅速了解在她不在的时候世界发生了什么。阅读整个新闻集是一项艰巨的任务,而产生对未知事实的特殊质疑是相当不现实的。因此,来自计算机的智能援助显然是可取的。这样的援助可以采取语料库的内容摘要的形式,用于快速回顾、过去的感兴趣事件的时间演变,或者自动检测新事件的列表,该事件显示出显著的内容转变从任何先前已知的事件。对于通过文档集群导航的结构化指南也很有用。表1显示了一个样本

通过将我们的分层内容聚类算法应用到几千个新闻故事(美国有线电视新闻网新闻和路透社文章从一月到二月在1995)获得的语料库的摘要,并使用几个(统计意义上)关键术语来呈现每个集群。如表所示,国内政治照常最高,OJ审判仍受到媒体关注等。然而,该表还显示,灾难发生在神户日本和马里布加利福尼亚,车臣共和国再次崛起,这些事件不是前一个月出现的。主要的术语提供的内容信息,故事计数意味着意义,如媒体关注的测量。如果需要进一步的细节,则可以通过查询驱动的检索、浏览单个文档或跨文档的综合摘要来检查子簇[2 ]。这种计算机辅助的效用是显而易见的,即使一些集群可能不完善,而当前的用户界面是不完善的。
本文报道了我们在事件检测方面的工作,这是由话题检测和跟踪(TDT)项目发起的一个新的研究课题。目标是在连续新闻流中识别与新的或先前未被识别的事件有关的故事。更准确地说,检测由两个任务组成:回顾性检测和在线检测。前者需要在积累的集合中发现先前未被识别的事件,而后者努力从实时新闻馈送中实时识别新事件的发生。这两种检测形式缺乏对新事件的预先了解,但可以使用(未标记的)历史新闻故事作为对比集。
事件检测本质上是一个发现问题,即在文档内容中挖掘新模式的数据流。自下而上的文档聚类似乎是自然集群发现的自然解决方案,而不引入关于域或下游应用的任何假设。此外,自底向上聚类可以导致集群层次结构,从而允许在信息空间中的任何抽象层次上进行观察。更高级别的集群对文档组的内容进行渐进的粗粒度概述,而较低级别提供对应于特定事件、事件的时间阶段或子事件的更紧密的簇。我们已经应用了分层和增量非层次聚类算法探索问题的性质和解决空间,重点是上下文信息和事件分布的时间模式的结合使用。
与我们的工作直接相关的是其他TDT成员组正在进行的研究:UMAS信息检索组和龙系统语音识别组。这些组也使用文档聚类作为他们的基本方法。UMAS通过监测新闻流中的术语频率的突然变化,并使用包含灾难相关术语的故事来构建聚类重心,来检测灾难事件。龙适应UNIGRAM(和后来的BigRAM)语言模型到文档/集群表示,并使用k-均值聚类算法进行文档分组[10 ]。我们将这两组方法的结果与我们在评价部分中的方法的结果进行比较。
在信息检索方面其他相关工作包括:
基于分散/聚集聚类的语料库导航方法;
聚类算法及其在查询驱动检索中的应用研究;
我们的检测方法受到散射和聚集纸(3)的启发,包括基本组聚类算法(GAC)的选择。然而,聚类算法本身不是本研究的重点,也不是查询驱动的检索范式中的应用或评价。相反,本文的主要贡献是聚类技术在事件检测中的应用。特别地,我们研究:
事件的语义和时间特性;
基于内容和时间邻接的文档聚类(而不仅仅是内容);
基于相似性和新颖性的事件检测;
回顾性和在线检测的评价方法;
2.事件分析
为了研究事件的本质并评估检测算法的特性,TDT项目准备了15836个新闻故事的集合,其中25类事件被TDT研究者识别。明确地给出事件否认的唯一准则是事件应该识别在某个时间在某个地方发生的一些(非平凡的)事件。此属性使得事件与主题无关。例如,TWA800飞机坠毁是一个事件,但不是一个话题,飞机事故是一个话题,但不是一个事件。这种区分产生了事件的报告模式及其随时间的演化。由于选择来自TDT语料库的事件需要对该语料库进行初始随机抽样,所以对更大事件(更经常报道的那些)的偏倚是显而易见的。所选的25个事件包含了无数的故事,从巴拿马古巴暴乱的2个故事到OK城市轰炸的273个故事。故事的整个语料库被手工标注;每个故事被赋予一个关于25个事件中的每一个事件的“是”、“否”或“简短”的标签。语料库包含的事件多于25个标记的事件;未标记的事件未用于评价中。
新闻故事的一个有趣特征是,事件经常与新闻突发有关。图1和图2示出了一些事件的时间直方图,其中每个图的X轴是时间(从第1天到第365天编号),Y轴是每天的故事计数。我们从时间事件分布的观察中出现了几种模式:
讨论相同事件的新闻故事往往是在时间上接近的,建议使用词汇相似性和时间接近性的组合度量作为文档聚类的标准。
局部相似故事的爆发之间的时间间隔常常是不同事件的指示(例如,不同的地震、飞机事故,政治事件),表明需要监测集群演进随着时间的推移,和BeNET使用时间窗口的事件范围。
词频分布的显著变化和词频分布的快速变化是报告新事件的典型事件,表明动态更新语料库词汇和统计术语权重的重要性。及时发现新的模式,包括以前看不见的专有名称和邻近短语,在故事流中可能有助于发现新事件的发生。
这些要点将在下一节中进一步讨论,我们的文档聚类算法用于事件检测的设计被描述。
3.检测方法
回顾性事件检测是将故事分组在一个语料库中的任务,其中每个组唯一地等同于一个事件。在线事件检测是将每个文档以新的或旧的顺序标记的问题,指示当前文档是否是当时讨论新事件的第一个故事。我们研究了两种聚类方法:基于组平均聚类(GAC)凝聚(分层)算法,和一个单遍算法(增量聚类或IPCR),产生一个非分层分区的输入集合。GAC设计用于批处理,用于回溯检测。InCR被设计用于顺序处理,并用于追溯检测和在线检测。
3.1 聚类表示
在我们的检测和跟踪算法中,我们共享文档和簇的共同表示。我们采用传统的向量空间模型[5 ],它使用袋子的术语表示。文档(故事)用加权项向量(单词或短语)来表示。聚类中的文档的归一化向量和被用来表示聚类,并称为聚类的原型或质心。使用术语频率(TF)和逆文档频率(IDF)对文档向量或聚类原型中的术语进行统计加权,并适当地归一化。我们只保留每个向量的K级(最多),而忽略剩余的项。经验地选择K值以优化检测或跟踪性能。我们使用标准余弦相似性,即文档和聚类原型向量之间的余弦值来度量它们的相似性。
我们采用Smart 11系统(康奈尔开发)(5)进行文档预处理,包括去除停止词、词干和术语权重。SMART还提供了几个术语加权方案,其中我们发现LTC选项在我们的实验中得到最好的检测结果。给定文档D中的术语T,LTC权重被定义为:

3.2 基于GAC层次聚类算法
基础GAC算法
群组平均聚类(GAC)是一种凝聚算法,最大化了所得到的聚类中的文档对之间的平均相似度(7, 9)。直截了当的GAC算法通常在时间和空间上与输入文档的数量(3)的平方具有复杂性,这比简单的方法(如单链路聚类切割等)对于大型应用来说是不经济的或易于处理的。提出了一种迭代的自底向上算法,其目的是在聚类质量和计算性能之间进行折衷(3)。在每次迭代中,它将当前的活动集群/文档集划分为桶,并在每个桶内进行局部聚类。该过程重复并在越来越高的水平上生成集群,直到获得预先确定数量的顶级集群。该算法具有O(Mn)的时间复杂度,其中n是输入语料中的文档数,m是桶大小,m是n。
制袋与再聚类
当将上述算法应用于事件检测时,我们基于文档的有序顺序对文档/簇进行了绑定。我们的动机不仅仅是计算的效率,而是利用新闻故事的时间接近性来讨论给定的事件。TDT语料库中大多数手动标记的事件持续不超过2个月。事实上,事件往往出现在新闻突发事件,使其合理的桶故事根据他们的时间顺序。换言之,我们的策略给予更高的优先权来分组连续的故事,而不是时间上不同的故事。GAC算法的输入是一个文档集合,输出是一个具有用户指定树数的簇树森林。集群是以自下而上的方式生长二叉树:树的叶节点是单文档簇;中间节点是两个最相似的较低级别的簇的合并簇。默认情况下,自底向上的集群一直持续到根节点被创建,它代表包含所有集群和所有故事的通用集群。如果预先设定了期望的簇数,那么当达到该簇数目时,该算法停止,而不是继续到根。该算法包括以下步骤:
1。按时间顺序排序故事,并将其作为语料库的初始分区,每个集群由单个文档组成。
2。将当前分区划分为不重叠的和连续大小的桶。
3.通过自下而上的方式将较低级别的集群组合到较高级别的集群中,将GAC应用于每个存储桶,直到存储桶大小(其中的集群数量)减少因子α,称为缩减因子。
4.删除存储区边界(组装所有GAC集群),同时保留集群的时间顺序。 使用生成的群集系列作为语料库的更新分区
5.重复步骤2-4,直到在nal分区中获得预定数量的顶级集群。
6.通过注意组件集群并从叶节点内部重新生成GAC集群,定期(在步骤5中每k次迭代一次)重新集群每个顶级集群中的故事。
重新聚类步骤是我们对Cutting算法的补充。 当事件跨越初始时间桶边界时,此步骤很有用; 在不同的桶中讨论事件的故事子集通常在较低级别与有些相似的故事聚集在一起,并且稍后才在集群树的更高级别节点中组装。 随后的重新聚类减少了初始分组的系统偏差,因此导致比没有重新聚类的情况下更紧密的聚类。
可调参数
1.桶大小(簇数),限制每次迭代中GAC聚类的范围;
2.减少因子? 在每次迭代中;
3.要组合的两个集群的最小相似度阈值;
4.每个集群原型中要保留的术语数量;
5.加权计划一词;
6.重新聚类之间的迭代次数
参数调整是一个经验问题。 表2显示了我们的回顾性检测实验中使用的典型参数值。

3.3 单通道聚类
增量聚类算法非常简单。 它一次一个地顺序处理输入文档,并逐步增长集群。 如果该文档与该集群的原型之间的相似性高于预先选择的阈值,则新文档被先前生成的最相似的集群吸收; 否则,该文档被视为新集群的种子。 通过调整阈值,可以获得不同粒度级别的聚类。 我们进行了额外的工作以利用输入数据的动态特性和事件的时间属性; 以下各节将介绍这些方法。
增量IDF
在线检测中的任务特定约束是禁止使用有关未来故事的任何信息,即当前处理点之后的文档。这引发了关于如何处理来自传入文档的不断增长的词汇的问题。 动态更新诸如IDF之类的语料库级统计数据,这会影响术语加权和向量归一化,从而影响文档聚类。
解决上述问题的两种可能方法是:
1.使用类似应用领域中的回顾性语料库(例如,在TDT故事期间之前的CNN或WSJ新闻报道)获取xed词汇表和静态IDF统计数据,并使用此词汇表和IDF值进行新近来的术语加权文件/集群。 为词汇表外(OOV)术语分配恒定权重,或使用其他类型的术语权重平滑。
2.每次处理新文档时,逐步更新文档词汇表并重新计算IDF。 实证分析表明,在处理了足够数量的\过去“文件”之后,增量IDF方法在文档检索中是有效的[1]。
我们选择将两种方法结合起来,从回顾性语料库的IDF统计数据开始,并使用每个传入文档更新IDF。 增量反向文档频率(IDF)定义为:

其中p是当前时间,t是一个项,N(p)是直到当前点的累积文档数(包括回顾性语料库,如果使用的话),n(t; p)是包含的文档数 术语t到当前点。
时间窗口和衰减功能
对于在线检测,我们使用时间窗口将先前的上下文限制为之前的故事。 对于顺序处理中的每个当前文档,计算时间窗口中每个文档的相似性得分。 如果窗口中的所有相似性得分低于预定阈值,则将新的ag分配给文档。 该决定的得分值定义为:

其中x是当前文档,di是窗口中的第i个文档,i = 1;2; m。我们还测试了一个衰减权函数,其中进一步删除的文档对当前决策的影响逐渐减小。 我们使用修改后的公式来计算文档x的得分:
与均匀加权窗口相比,该方法提供了使用时间接近的更平滑方式。 请注意,为简单起见,我们定义了文档的时间窗口,而不是集群或时间段; 但是,很容易将这些定义从文档推广到如此大的分组。
这些窗口策略在我们的在线检测实验中产生了可测量的改进,在召回时仅提供了一个小的牺牲,提高了精度。 i = m线性衰减时间窗口产生的结果始终比均匀加权窗口更好。 同样,我们研究了INCR聚类中的时间窗口以进行回顾性检测。 在使用其他参数xed的实验中,使用2000个文档的窗口(覆盖约1.5个月的时间)将F1测量中的性能得分从0.64提高到0.70 [7](在评估部分中定义)
检测阈值
我们使用两个用户指定的阈值来控制增量算法的检测决策:聚类阈值(tc)和新奇阈值(tn)。 前者决定了所得聚类的粒度,这对于回顾性事件检测至关重要,后者决定了对新颖性的敏感性,这对于在线检测至关重要。
让tc tn和simmax(x)= 1得分(x),我们的在线检测规则定义为:
如果simmax(x)> tc,则将ag设置为OLD,并将文档x添加到窗口中最相似的簇中;
如果tc simmax(x)> tn,则将ag设置为Old,并将文档x视为新的单例集群;
如果tn simmax(x),然后将ag设置为New,并将文档x视为新的单例集群。
使用这两个阈值可以为不同的任务提供更好的经验优化。 例如,tc = tn适合于回顾性聚类(即,不需要tn),但是对于在线检测,我们发现不使用聚类(tc = 1)更好。 表3和表4显示了我们在INCR的回顾性检测和在线检测实验中通常使用的参数值。

4.评测
使用TDT语料库中的25个人类标记事件(约占总故事的7%)来评估检测效率,尽管检测系统在整个语料库上运行,并且(可能)在这25个没有评估事件之外检测到更多事件。
4.1 回顾检测结果
TDT项目中的官方评估要求每个回顾性检测系统生成语料库的分区,即非重叠的簇,它们一起跨越整个TDT语料库。 系统可以生成任意数量的集群,但仅在25个参考事件上进行评估。 生成分区后,通过25个列联表,使用与25个标记事件中的每个事件最匹配的集群进行评估。
表5说明了一个集群事件对的2乘2列联表,其中a;b; c和d是相应案例中的文件计数。 使用列联表来确定五种评估措施,包括未命中,误报(f),召回(r),精度(p)和F1测量(F1):
为了测量全局性能,使用了两种平均方法。 通过合并25个事件的列联表(通过对相应的单元求和),然后使用合并表来产生全局性能度量来获得微观均值。 通过首先产生每事件性能测量值,然后平均相应测量值来获得宏观平均值。
表6显示了在官方TDT回顾性检测评估中增量聚类算法的最佳结果,其中每个检测系统都需要产生整个语料库的分区。 表7显示了在允许使用可能重叠的集群时获得的改进结果。 CMU结果对应于前面描述的修改的GAC方法。 根据他们在TDT研讨会上的报告[10],UMass和Dragon的(可用)结果也包括在内进行比较:
这些结果表明,允许集群层次结构(CMU:GAC)和集群重叠(UMass:dupl)比需要语料库分区产生更好的结果。 我们认为,GAC性能更好的主要原因是多级集群,可以在任何粒度下检测事件。 GAC的这种代表性功能带来的成本比INCR分区中的集群数量(5,907)产生更多的集群(在此特定运行中约为12,000个)。 但是,如果集群层次结构将用于分散 - 收集类型的导航或查询驱动的检索,则此差异可能对最终用户没有显着影响,其中所需的搜索步骤很多 小于集群总数。
在分区生成算法的结果中,我们感到惊讶的是最简单的方法{INCR(CMU)的单通道聚类{以及Dragon的多通道k均值聚类方法。这可能部分是因为 时间接近的事件简化了聚类问题。
4.2在线检测结果
在线检测系统的所需输出是新的或旧的对于具有该决定的信心分数的传入文档的决定。 由于在TDT语料库中只有25个事件(包含1131个故事),并且每个事件只有一个故事作为该事件的第一个报告,因此只有25个故事应该具有整个语料库的新的ag。 对于统计上可靠的性能估计,这个数字太小。 为了提高可靠性,进行了11遍检测评估。 每次通过后,每个事件的第一个故事被删除,检测和评估再次应用于语料库。 11次传球由Nskip = 0标记;1; ::: ;; 10.对于每次通过,构建一个列联表用于评估,如表8所示。
我们将不使用聚类的更好结果解释如下:为了通过新颖性测试,故事必须与过去的故事完全不同; 这比一般情况下的新颖性更强
请注意,表9中的分数仅衡量每个系统在特定交易中的表现如何? 召回程度和精确度。 为了衡量持续的贸易 - 在召回和精确度之间,我们提出召回精确曲线(图3)和决策误差贸易o?(DET)曲线。 通过在检测决策的参考分数上移动阈值来获得这些曲线。 我们使用TDT项目中提供的DET软件生成DET曲线,并将这些DET曲线中的每个数据点(一对错误/误报警值)转换为相应的召回和精确值(非插值)以获得 召回精度曲线。 CMU结果用实线表示,在高精度区域表现出更好的性能。 正如图3中特别明显的那样,CMU,UMass和Dragon方法表现出非常不同的行为,需要进一步详细调查。
4.3行为分析
为了比较我们的算法与人类判断的行为,我们将用于回顾性检测的系统生成的簇的时间直方图与人类判断的相应直方图进行对比。 图5-8分别显示了GAC和INCR两个事件的成对直方图。 图9显示了所有25个事件的GAC性能。 每个图的上半部分是事件的人类标记文档的直方图; 下半部分是同一事件的系统生成的集群的直方图。 Y轴上的绝对值是特定日期中事件或群集的故事计数。 如果事件和集群是完美匹配,那么它们的直方图将是完全对称的,彼此镜像。
如图所示,GAC和INCR具有互补的优势和劣势。 除了具有显着时间范围的事件之外,GAC显示了大多数事件的令人惊讶的对称图,并且GAC特别适合于识别大型新闻突发。 另一方面,与GAC相比,INCR具有较低的对称性能,但更好地跟踪长期事件(O.J. trail中的DNA和Kim Jong Il的死亡)。 观察到的行为可能部分来自这些算法中的不同偏差,部分来自特定实验中的参数设置。

5.结束语
事件检测,无论是回顾还是在线,都代表了IR的一系列新任务。 我们对这些任务的试点研究结果(由UMass和Dragon的结果加强)表明,如果问题得到很好的定义,并且内容信息和时间信息是联合的,那么文档聚类等基本技术可以非常有效并正确使用。
对于回顾性检测,当需要严格划分文档空间时,GAC,INCR和Dragon的kmean聚类算法表现出相当的性能; 当放宽分区要求时,分层GAC方法是最好的。
在线新事件检测比回顾性检测更为困难。 尽管需要进一步研究以便更好地理解,但非聚类技术已经证明比聚类方法具有更好的检测准确性。
尽管CMU,Dragon和UMass获得了合理的结果,但仍有许多工作要做。 进一步调查的研究问题包括:
(1)我们如何利用多个输入流(例如,CNN,AP,UPI,……)相互加强,交叉验证主题集群?
(2)我们怎样才能更好地利用专有名称或邻近短语的时间模式,这些模式似乎是高度信息(至少对人类而言)作为事件指标?
我们如何提供回顾性聚类事件和新发现的新事件的信息空间的全局视图?
我们如何让用户积极参与基于群集的导航,例如 通过允许zoonin和缩小选项,以及提供不同粒度的摘要,即在语料库级别,集群级别,文档级别和子文档级别?
我们如何评估和比较集群层次结构(或集群集)在帮助用户进行无查询或查询驱动检索时的有用性? 例如,我们应该测量用户查看相关群集的速度,并将时间用作时间评估标准?
致谢
我们感谢DoD的Charles Wayne和George Doddington在TDT任务定义和评估方面的指导,感谢UMass的James Allan和Dragon的Jon Yamron分享研究中的想法/成果。 TDT研究由国防部赞助。 但是,本文中的任何观点或结论都是作者的,并不一定反映赞助商的观点或结论。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值