<p>
- [*]话题识别与跟踪TDT(Topic Detection and Tracking)旨在研究自然语言信息流中基于事件的信息组织问题。 [*]处理对象是随时间动态变化的语言信息流——时效性 几个概念: [list] [*]话题(Topic)——一个核心事件或活动以及所有与之直接相关的事件和活动 [*]报道(Story)——指一个与话题紧密相关的、 包含两个或多个独立陈述某个事件的子句的新闻片断 [*]主题(Subject)——涵盖多个类似的具体事件或者根本不涉及任何具体事件。
5个子任务
- [*]对新闻报道的切分(Story Segmentation)——预处理,研究意义不大。主要技术:最大熵和决策树混合模型、贝叶斯分类器、变化的能量级别(?)等; [*]新事件的识别(New event detection, Formerly First Story Detection)——即在新闻报道信息流中识别出对一个新话题的首次报道,有挑战。典型方法:向量或概率分布模型; [*]报道关系识别(Story link detection)——核心,相似度计算。主要技术:余弦相似度、停用词、词干分析、二元术语向量、增量修订tf*idf 的取值,以及基于时间罚分策略 [*]话题识别(Topic detection)——本质是无指导的增量聚类研究。常用算法:增量k-means聚类、agglomerative聚类、单遍聚类等。IBM开发的系统 [*]话题跟踪(Topic tracking)——识别出关于某个已知话题的新闻报道。训练正例非常非常少, 并且与某个话题相关的报道常常集中出现在特定的时间段内。影响因素:训练用报道数量、语言、文字记录质量。研究水平已达到应用级。方法:k最近邻方法或多种方法组合,Rocciho分类方法、决策树方法、基于HMM的语言模型等。
TDT系列评测
- [*]背景——应用驱动:模拟真实环境、强调集成测试 [*]评测语料库:from语言数据联盟(LDC)
评价指标
- [*]归一化识别代价
[/list]</p>