Classified Index: TP391.3 U.D.C: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH ON KEY TECHNIQUES OF HOT TOPIC DETECTION IN TECHNOLOGY NEWS
Candidate:
You Bo
Supervisor:
Prof. Wang Xiaolong
Academic Degree Applied for:
Master of Engineering
Speciality:
Computer Science and Technology
Affiliation:
School of Computer Science and Technology
Date of Defence:
June, 2012
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- I -
摘要
随着互联网的快速发展,网络上的信息量变得极其庞大,而作为 Web 1.0 时代就已经出现的传统应用,网络新闻仍然有着很高的使用率。为了方便用户 有效地发现自己想要的信息,需要对新闻报道按事件进行组织。话题发现的目 标是将讨论同一事件的文档划分到一起。相对其它领域,科技新闻有以下两个 特点:话题的范围相对较窄,事件之间相关性更强。在科技新闻中进行话题发 现时需要充分考虑这些特点。此外,为了方便用户对当前的热点话题获得一个 全面的了解,进而更加准确地获取自己感兴趣的信息,需要对事件产生一个直 观的描述。针对以上分析,本文主要研究内容包括以下三个方面:
第一,对新闻文档进行建模。首先为了以关键词组合的形式对当前的热点 话题进行描述,需要进行关键词抽取;其次在接下来的处理过程中,需要计算 文本之间的相似度。根据以上需要,本文采用主题模型 PAM(Pachinko Allocation Model)对对文档进行建模,完成关键词的抽取并将得到的文档主题分布向量 用于相似度计算。接下来通过与 TFIDF 和 HHMM 的对比实验对关键词抽取的 有效性进行了验证并对主题模型的优越性进行了分析。
第二,对新闻文档进行聚类。首先需要将文档按相关性进行划分,便于接 下来的进一步处理;其次产生以关键词组合表示的事件描述复杂度较高,需要 减少计算量。本文通过对典型聚类算法 K-means 、 K-means++ 和 Affinity Propagation 的对比分析,选择了更适合本文具体应用的 Affinity Propagation 聚 类算法;并进一步比较了不同相似度度量对聚类结果的影响,从另一个角度验 证了主题模型的有效性。
第三,产生以关键词组合表示的事件描述。因为聚类结果召回率较高而准 确率和纯度较低,所以需要对聚类结果进行进一步的加工处理;而聚类产生的 簇中关键词数目相对整个文档集合有了明显地减少,因此可以采用频繁项集挖 掘算法。本文通过一个时间段的新闻文档上的实验对算法的有效性进行了验证。 接下来通过对不同时间点的关键词组合进行比较以发现报道侧重点的变化,给 出了在演变趋势追踪方面的初步应用。
关键词:热点话题发现;科技新闻;主题模型;文本聚类;频繁项集挖掘
-
- II -
Abstract
With the rapid development of the Internet, the volume of information is becoming extremely large. As a traditional application since the Web 1.0 era, online news is still being widely used. It is of great importance to organize the news reports according to their corresponding events. The goal of topic detection is to group together documents discussing the same event. When detecting hot topics in technology news, several specific properties have to be taken into consideration: (1)The topics are in a relatively narrow range. (2)Events a