TDT

最新推荐文章于 2023-10-12 22:29:06 发布

nudtgk2000

最新推荐文章于 2023-10-12 22:29:06 发布

阅读量183

点赞数

分类专栏： Text Mining

本文链接：https://blog.csdn.net/nudtgk2000/article/details/84013698

版权

2 篇文章 0 订阅

订阅专栏

<p>

[*]话题识别与跟踪TDT(Topic Detection and Tracking)旨在研究自然语言信息流中基于事件的信息组织问题。 [*]处理对象是随时间动态变化的语言信息流——时效性几个概念： [list] [*]话题(Topic)——一个核心事件或活动以及所有与之直接相关的事件和活动 [*]报道(Story)——指一个与话题紧密相关的、包含两个或多个独立陈述某个事件的子句的新闻片断 [*]主题(Subject)——涵盖多个类似的具体事件或者根本不涉及任何具体事件。

5个子任务

[*]对新闻报道的切分(Story Segmentation)——预处理，研究意义不大。主要技术：最大熵和决策树混合模型、贝叶斯分类器、变化的能量级别(?)等； [*]新事件的识别(New event detection, Formerly First Story Detection)——即在新闻报道信息流中识别出对一个新话题的首次报道，有挑战。典型方法：向量或概率分布模型； [*]报道关系识别(Story link detection)——核心，相似度计算。主要技术：余弦相似度、停用词、词干分析、二元术语向量、增量修订tf*idf 的取值，以及基于时间罚分策略 [*]话题识别(Topic detection)——本质是无指导的增量聚类研究。常用算法：增量k-means聚类、agglomerative聚类、单遍聚类等。IBM开发的系统 [*]话题跟踪(Topic tracking)——识别出关于某个已知话题的新闻报道。训练正例非常非常少，并且与某个话题相关的报道常常集中出现在特定的时间段内。影响因素：训练用报道数量、语言、文字记录质量。研究水平已达到应用级。方法：k最近邻方法或多种方法组合，Rocciho分类方法、决策树方法、基于HMM的语言模型等。

TDT系列评测