TDT话题检测与跟踪

话题检测与跟踪(Topic Detection and Tracking)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。

TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。根据不同的应用需求,TDT评测会议把话题检测和跟踪分成五个子任务。

  ● 报道切分(Story Segmentation)找出所有的报道边界,把输入的源数据流分割成各个独立的报道。
  ● 话题跟踪(Story Tracking)给出某话题的一则或多则报道,把后输入进来的相关报道和该话题联系起来。它实际上包括两步,首先给出一组样本报道,训练得到话题模型,然后在后续报道中找出所有讨论目标话题的报道。
  ● 话题检测(Story Detection)发现以前未知的新话题。
  ● 首次报道检测(New Event Detection)在数据流中检测或发现首次,并且只能是首次讨论某个话题的报道。与话题检测本质相同,区别只在于结果输出的形式不同。
  ● 关联检测(Link Detection)判断两则报道是否讨论的是同一个话题。
  主要实现方法
  构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:
  (1)话题/报道的模型化
  (2)话题-报道相似度的计算
  (3)聚类策略
  (4)分类策略(阈值选择策略)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值