一种生成事件脉络的方法

本文介绍了一种通过分析新闻媒体的报道变化来挖掘事件脉络的方法。使用时间片聚类算法,结合新闻发布时间和转载情况,确定事件的重要阶段。通过改进的时间距离计算和新闻去噪策略,提高脉络抽取的准确性。
摘要由CSDN通过智能技术生成

前言

对于一些延续时间较长的新闻事件,我们希望通过机器挖掘的手段,抽取出事件发展的重要阶段,称为事件的脉络信息;使得用户能够通过脉络信息,直观的了解该事件发展的过程。比如:在中国协助智利解救被困矿工一事的专题页中,展现如下的事件回顾信息,能够帮助用户迅速的领略该事件的来龙去脉。

图1:事件专题页

 

图2:事件的脉络信息

 

问题描述

输入:关于某一事件的相关新闻集合,包含的新闻量最好多于10篇;我们实验用的数据,是利用文本聚类得到的新闻簇,新闻簇的大小从几十到几百篇都有。(得到事件新闻集合的方法,还可以通过事件检测与跟踪的办法,或者通过获取搜索引擎的返回结果等方法,新闻集合的质量越好,覆盖的时间窗越长,对挖掘脉络越有利)

输出:事件的脉络信息,简单一些,就是:给出一个重要新闻的列表,这些重要的新闻涵盖了该事件的各个重要阶

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值