拉手网的话题检测与跟踪

随着互联网这一新媒体的出现,我们面临着信息爆炸的问题。目前基于关键词的检索工具返回的信息冗余度过高,人们迫切地希望拥有一种能够自动把关话题的信息汇总供人查阅的工具。话题检测与跟踪即可解决人们对海量信息的甄选,选择自己感兴趣的话题进行了解,也可以对公司的舆情进行监控。

话题检测与跟踪(Topic Detection and Tracking,简写为TDT)是由美国国际高级研究计划局(DARPA)发起倡议的,主要用于在新闻报道流中发现和跟踪新事件,从事新闻报道边界的自动识别、锁定和发现突发性新闻话题、跟踪话题发生发展过程等相关任务。TDT主要包括三个任务:(1)新闻报道的切分;(2)识别新事件的首次新闻报道;(3)对于特定的关于某个事件的相关报道,检测出在新闻流中和该事件相关的新闻报道。

    TDT常用到如下几个相关概念:

事件(Event):是指在什么时间,什么地点,涉及到什么人物发生的特定事件。

话题(Topic):是由一个突发事件引以及由这个突发事件所引起的相关事件组成,可以认为一个话题是由多个事件组成的集合。

报道(Story):是对某个事件的相关新闻报道,主要报道网络新闻稿件、电视新闻报道片段以及广播新闻播报等内容。

TDT涉及到5个任务:

报道切分(Story Segmentation):报道切分是指将从一个信息源获得的语言信息流分割为不同的新闻报道。

新事件识别(New Event Detection):识别出以前没有讨论过的新闻话题。

报道关系识别(Story Link Detection):在报道关系识别中,系统对给定的两篇新闻报道做出判断,即它们是否讨论同一个话题。

话题识别(Topic Detection):从本质上说是对新闻报道进行聚类,它是对新事件识别任务的一个自然的扩展。

话题跟踪(Topic Tracking):是给出一组种子报道,训练得到话题模型,然后在后续报道中发现与这个话题相关的所有报道。

拉手网

拉手网是全球首家GrouponFoursquare(团购+签到)相结合的团购网站。于2010318日成立,中国内地最大的团购网站之一,作为国内最早开展互联网团购业务的企业之一,拉手网一直以卓越的创新能力以及多元化业务经营能力引领行业变革。在过去的2015一年中,拉手网对各区域及重点城市分站进行了优化整合,大幅提升了地推能力,和线上线下活动策划能力。经过一年的调整,拉手网的战略逐渐清晰,在保证基础业务正常运营的情况下,协同三胞集团将业务扩展至了维修、金融等诸多新领域,在2015年底发布在线微信服务平台“修好了”,正式进军智能产品互联网维修行业,其后又借美国最大新奇特产品连锁企业博斯通(Brookstone)进入中国为契机,推出“拉手夺宝”项目,试水互联网众筹平台业务。

怎么从海量的信息中找到有关热点话题,并从热点话题找到可能所涉及到拉手网的相关新闻,对相关的新闻事件进行舆情的分析与监控。如招聘信息中可看

到:

IT新闻:

对热点话题的分析提出了与自身平台的相结合的主题检测和跟踪的方法,对热点话题进行检测与跟踪。

基于老化理论和突发词的主题检测与跟踪

话题检测与跟踪的流程框图如下:

老化理论(Aging Theory)

老化理论可以来表示一个新闻话题的生命周期,必须经历出生、生长、衰退、死亡这四个过程。通过能量函数来表示主题的生老病死。能量函数值暗含着一个主题在它的生命中的生命强度(也就是人们通常说的热点程度)。当话题很受关注的时候,其能量值就大;同理当话题没人关注的时候,其能量值就小。就像游戏里头的人物一样,人物可以通过补充能量来获得新生,同理,不被关注的话题也可以通过补充营养来获得重生。如凤姐求婚事件,2011121日,凤姐发表微博声称我要和陈冠希结婚,在随后短时间内,edc陈冠希回复

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值