主题提取综述
随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。最近,舆情分析成为了热门的研究话题。而主题提取作为舆情分析的关键之一亟待改进,需要非常有效的手段。
本文着重介绍了主题提取的背景和方法。同时针对国内外对主题提取的部分研究、优势和劣势进行了对比。主题提取分为主题句提取和关键词提取两部分。
一、关键词提取背景
(1)国外背景
1、 Krulwich 和Burkey 利用启发式规则抽取文档中重要的词和短语。这些启发式规则主要依据格式和简单结构特点抽取关键词[ 1 ] 。
2、 Steier 和Belew利用互信息发现文档中含两个词的关键词,他们在研究中发现,同样两个词的短语,专业领域计算出的互信息值往往比通用领域高[2 ] 。
3、 Turney 与Witten 分别开发了系统GenEx 与KEA ,这两个系统在关键词抽取的发展史上具有重要的意义。他们首次利用监督学习的方法训练已标注关键词的语料,然后通过训练出的关键词抽取模型对未标注关键词的文档进行关键词抽取,此方法在准确率与召回率上都超越了前人的工作。
Turney 利用遗传算法和C4.5决策树学习方法设计了系统GenEx 。而Witten 采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,以完成下一步从文档中抽取关键短语的任务[ 3~4 ] 。
4、 Salton 提出了TF/ IDF ( Term Frequency & Inverse Document Frequency) 算法。此后Salton 多次论证TF/IDF 公式在信息检索中的有效性,在1988 年又详细阐述了多种词权重计算方法在文献检索时适用情况[ 5 ] 。词频 (TF) 是一词语出现的次数除以该文件的总词语数。逆向文件频率 (inverse document frequency,IDF) 可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
(2) 国内背景
1、刘远超和王晓龙等人利用粗集理论对关键词短语的构成规则进行了挖掘,将挖掘出的规则用于指导关键词的自动抽取,避免了一些错误的搭配被抽取,从而提高了系统的性能,使抽取结果更加符合人们的习惯[6 ] 。
2、任克强和赵光甫等人提出以带权语言网络来表征HTML 标记对网页文本的影响,给出了综合介数指标与紧密度指标的词语中心度度量方法,实现了网页关键词的抽取算法,表现出良好的抽取效果以及可解释性。
3、马亮和何婷婷等人采用查询相关性特征和话题相关性特征来对关键词语进行打分,最后将这两个特征进行线性组合来得到关键词语的重要度[7 ]。
二、关键词提取算法
(1)标准TF/ IDF 算法
1、初始定义
IDF首先被定义为Opposed to Document Frequency ,后来Salton 将Opposed to Document Frequency改为InverseDocument Frequency ,从此IDF ( Inverse Document Frequency)沿用至今。IDF 的权重计算公式如下:w = lbN -lbn + 1其中N 代表总文档数, n 指包含特征项的文档数。Salton 没有解释公式的由来,但Shannon的信息论为我们解释了IDF 的含义:如果特征项在所有文档中出现的频率越高

本文探讨了主题提取在舆情分析中的重要性,包括关键词和主题句的提取。关键词提取涉及TF/IDF算法及其改进,如TF/IWF/IWF和Category Term Descriptor。主题句提取则依赖于句子的5W要素和与标题的相关性。文章指出,权值计算是主题提取的核心,提出了结合句子特征和标题信息的提取策略。
最低0.47元/天 解锁文章
2285

被折叠的 条评论
为什么被折叠?



