热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

一、热点事件概述
热点事件具有不可预测性,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质,当然,重大事故或者突发事件(如总统被杀、日本地震、印尼海啸、巴黎圣母院火灾)等除外,不平凡的2019年发生的一些列重大事件都先后成为国内和国际社会所关注的热点。究其本质而言,是因为这些事件本身就存在着高度传播性和敏感性,往往伴随着灾难性的后果,并且这种特性是一定的,只要发生了,就会成为焦点。别的热点则不会这个样子,过去一个非突发性事件发生了,到了后面发生了,则不一定会成为热点,因为当时的客观和主观条件因素都已经截然不同。因此,对弈常规热点而言,是无法进行提前预测的。

二、热点事件的挖掘可行性
最近,有个公司有个项目想让我提提建议,大致的任务是:能不能提前发现热点,并且做热点的演化分析。作为实验,给了我三天的全网资讯,每天大约10万篇新闻,根据标题去重后大约是每天5万左右的资讯。周末之余,对这三天的资讯进行了实验,大致技术路线:
1)、热点发现
1、对三日文本进行分词、去停用词等预处理,使用lda主题模型进行主题建模,形成领域主题模型。
2、基于领域主题模型,对文本进行稠密向量表示,设定相似度阈值,计算文本之间的相似度,并构建相似度无向图,使用single-pass聚类算法,形成文本类簇,将三日共23万文本聚类成6万余个类簇,称为热点。
3、根据热点类簇结果,对三日文本进行文本类标引。根据每日的文本,计算每个热点的热度。热度计算值为热点簇大小/当日新闻总数。
4、根据热点类簇的热度结果&

  • 6
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值