HistoryHotEventBase
historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total,从2004年至2019年共16年的每日热点事件项目,目标包括构建起从2004年至今共16年的历时热点标题数据库,构建16年历时事件热点知识库。
项目介绍
热点挖掘是舆情分析中十分重要的内容之一,热点刻画了目前我们所生活的社会发展状况。热点从类型上来说,包括热点实体以及热点事件两种,前者主要围绕着热点的实体展开,包括热点人物、热点电影、热点电视剧、热点经典等,描述的是人类对某种事物物体的关注程度。热点事件则在语义上较热点实体更为丰富,往往包括什么人做了什么事情,引起社会的强烈关注。后者的存现载体主要有热点微博,热点新闻等。
从热点的任务角度上来说,热点挖掘包括热点的表示,热点的发现,热点的演化追踪共三个方面的内容。其中,概括性事件表示上,大多使用话题挖掘的方式,使用热点标签词或短语进行热点表示,还是停留在一个较为抽象的层级上。目前学界关于该热点的任务主要有TDT话题检测语追踪项目以及timeline和storyline的工作,其中如何自动挖掘和生成storyline是目前热点挖掘的重点,同时也是难点所在。在工业界中,搜索公司百度凭借着搜索入口,在热点的挖掘上有先发优势,如每日推出的百度风云榜,以及热点新闻的聚类。如图1,百度每日热点风云榜,图2的热点新闻聚类。
1、百度每日热点风云榜
2、百度热点新闻聚类
就第一张图的效果来看,主要在热点名称的概括上,很像是使用了类似频繁热点短语的方式来确定。就第二张图的效果来看,主要涉及到的技术包括热点新闻的聚类技术。
不过,很遗憾的是,我们只能看到当日