随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。最近,舆情分析成为了热门的研究话题。而主题提取作为舆情分析的关键之一亟待改进,需要非常有效的手段。
本文着重介绍了主题提取的背景和方法。同时针对国内外对主题提取的部分研究、优势和劣势进行了对比。主题提取分为主题句提取和关键词提取两部分。
一、关键词提取背景
(1)国外背景
1、 Krulwich 和Burkey 利用启发式规则抽取文档中重要的词和短语。这些启发式规则主要依据格式和简单结构特点抽取关键词[ 1 ] 。
2、 Steier 和Belew利用互信息发现文档中含两个词的关键词,他们在研究中发现,同样两个词的短语,专业领域计算出的互信息值往往比通用领域高[2 ] 。
3、 Turney 与Witten 分别开发了系统GenEx 与KEA ,这两个系统在关键词抽取的发展史上具有重要的意义。他们首次利用监督学习的方法训练已标注关键词的语料,然后通过训练出的关键词抽取模型对未标注关键词的文档进行关键词抽取,此方法在准确率与召回率上都超越了前人的工作。
Turney 利用遗传算法和C4.5决策树学习方法设计了系统GenEx 。而Witten 采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,以完成下一步从文档中抽取关键短语的任务[ 3~4 ] 。
4、 Salton 提出了TF/ IDF ( Term Frequency & Inverse Document Frequency) 算法。此后Salton 多次论证TF/IDF 公式在信息检索中的有效性,在1988 年又详细阐述了多种词权重计算方法在文献检索时适用情况[ 5 ] 。词频 (TF) 是一词语出现的次数除以该文件的总词语数。逆向文件频率 (inverse document frequency,IDF) 可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
(2) 国内背景
1、刘远超和王晓龙等人利用粗集理论对关键词短语的构成规则进行了挖掘,将挖掘出的规则用于指导关键词的自动抽取,避免了一些错误的搭配被抽取,从而提高了系统的性能,使抽取结果更加符合人们的习惯[6 ] 。
2、任克强和赵光甫等人提出以带权语言网络来表征HTML 标记对网页文本的影响,给出了综合介数指标与紧密度指标的词语中心度度量方法,实现了网页关键词的抽取算法,表现出良好的抽取效果以及可解释性。
3、马亮和何婷婷等人采用查询相关性特征和话题相关性特征来对关键词语进行打分,最后将这两个特征进行线性组合来得到关键词语的重要度[7 ]。
二、关键词提取算法
(1)标准TF/ IDF 算法
1、初始定义
IDF首先被定义为Opposed to Document Frequency ,后来Salton 将Opposed to Document Frequency改为InverseDocument Frequency ,从此IDF ( Inverse Document Frequency)沿用至今。IDF 的权重计算公式如下:w = lbN -lbn + 1其中N 代表总文档数, n 指包含特征项的文档数。Salton 没有解释公式的由来,但Shannon的信息论为我们解释了IDF 的含义:如果特征项在所有文档中出现的频率越高,则它包含的信息熵就越少;如果特征项的出现较为集中,只在少量文档中有较高的出现频率,则它拥有较高的信息熵。因此IDF 可以理解为在一个特定条件下关键词的概率分布的交叉熵。
2、进一步细化
Salton 在文献[ 8 ]中提出了TF/ IDF ( TermFrequency &InverseDocumentation Frequency)算法。TF/ IDF 主要体现了以下思想:一个词在特定的文档中出现的频率越高,说明它在区分该文档内容属性方面的能力越强( TF) ;一个词在文档中出现的范围越广,说明它区分文档内容的属性越低( IDF) 。经过Salton 的多次论证,信息检索领域广泛地使用TF/ IDF 算法计算权重,其经典计算公式为:wij = t fij ×i d f j = t f ij ×log( N/ nj )其中t fij 指特征项tj在文档d i 中出现的次数; i d fj指出现特征项tj 的文档的倒数。N 表示总文档数, nj 指出现特征项tj 的文档数。
(2)改进算法
1、Roberto Basils 提出了TF/ IWF/ IWF 方法,权重计算公式如下:w ( wi , d) = T F( wi, d) * ID F( wi )= N ( wid) * log ( N ( wi) / N) 2其中N ( wi ) 是文档中出现wi 的次数, N 是文档中所有词出现的次数之和, N ( wid ) 文本中出现wi 的次数,实现结果表明比TF/IDF 算法有很大提高。
2、陈克利对TF/ IDF 和TF/ IWF/ IWF 公式进行了分析并作了一些改进。认为关键词在某类的权重受三个因素的影响: 该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。
3、Bong Chih How 和Narayanan K 提出了用Category Term Descriptor ( CTD) 来改进TF/IDF ,以弥补类别数据集偏斜带来的困扰。
其中T F 指特征项t j在类ck 中出现的次数; D( ck )指类别ck 中的文档数, D F( tj , Ck ) 指类别ck中出现特征项t j 的文档数; C 代表类别数, CF( tj , ck ) 指出现特征项tj 的类别数。张玉芳和彭时名等通过修改TF/ IDF 公式中IDF 的计算方法,增加那些在一个类中频繁出现的特征项的权重。设总的文档数为N , 包含特征项t的文档数为n ,其中某一类C 中包含特征项t 的文档数为m ,除C 类外,包含特征项t 的文档数为k 。则t 在C 类中计算式为:
三、主题句提取背景
(1)国外背景
目前仅有Kastner 等[9]为CNN 新闻自动提取“新闻要点”的工作与本文思路相同, 都是在单篇新闻文档中利用语法、语义和统计特征提取包含事件信息的最重要的句子。Kastner等分析了CNN 新闻中要点句的分布特征, 结合句子特征(句子位置、时间信息、因果动词、特定触发词等)和词特征(动词类别、专有名词、bonus 或stigma词)计算句子的重要性, 提取4 个包含关键事实信息的句子作为“新闻要点”。
(2)国内背景
国内对事件抽取的研究虽然起步较晚, 但也取得了一定进展。[10~15]
四、主题句提取算法
(1)中文新闻关键事件的主题句识别
1、 基本定义
定义1 (关键事件5W要素)包括时间(time)、地点(location)、主体(subject)、谓词(predicate)和客体(object),分别对应于新闻关键事件的5W(when, where, who,what, whom)要素, 用五元组〈T, L, S, P, O〉表示。其中S, P, O 是核心要素, T 和L 是辅助要素。
定义2 (主题句) 包含关键事件5W 要素〈T, L,S, P, O〉中的核心要素〈S, P, O〉 和至少一个辅助要素T 或者L 的句子, 称为事件主题句。
定义3 (主题词集) 文档的主题词集是指一组能够描述文档中心内容的关键词。
定义4 (标题提示性) 如果标题中包含事件核心要素〈S, P, O〉中的至少一个, 即能 够说明何人(或物)发生了何事, 则称此标题具有提示性。
2、基于标题分类的主题句提取方法(TC)
基于标题分类的主题句提取方法可描述为: 给定一篇新闻报道, 计算标题与新闻主题词集的相似度, 判断标题是否具有提示性。对于提示性标题,抽取新闻报道中与其最相似的句子作为主题句; 否则, 综合利用多种特征计算新闻报道中句子的重要性, 将得分最高的句子作为主题句。基于标题分类的主题句提取方法在利用经典文本特征的基础上, 考虑了新闻报道的结构特征和标题信息含量等特征, 这将使主题句的提取更准确。
1)构造主题词集
构造主题词集的目的是识别一组能够描述文档内容的关键词, 用于衡量标题的信息含量。我们用两种方法计算文档中词的重要性(term_weight): 一种方法基于TF/IDF, 另一种方法是在利用词共现关系构造的文档关联图中基PageRank计算词的权重, 具体方法此处不再赘述。当得到词的权值之后, 选择k 个最重要的实义词构成主题词集T。k越大, 主题词集越大, 则覆盖标题词的可能性越大。这里将k 设为20, 以免太过宽松, 无法有效衡量标题的信息含量。
2)标题分类
我们计算标题与新闻主题词集的相似度, 判断标题是否具有提示性。标题-主题的相似度用标题H与主题词集T 中词的重合个数表示, 如式(1)所示:
在计算标题-主题相似度时, 我们仅考虑动词、名词、命名实体等实义词, 因为它们能够作为事件的S, P, O 要素出现, 满足标题提示性定义。在进行分类判别时, 由于NP句式标题可能只包含1 个关键词, 因此设置相关度阈值为1。尽管这是个比较宽松的阈值, 但它能有效过滤出“思想决定出路”、“红土长出三色花”等无信息标题。
3) 主题句特征选取
我们利用自动文摘领域的经典文本特征计算句子的重要性。除考虑句子本身特征外, 还考虑句子与标题之间主题相关性和语义相关性。
A、 相对词频.归一化处理的句子中词的权重之和。
B、 句子位置。 基于句子位置的方法是领域相关的。在有些领域, 段落的第一句话包含主题, 而有些领域则出现在最后一句。在新闻中, 信息含量高的句子通常出现在前几句和段首。式(3)中阈值l = 3。
C、 句子长度。一般来说, 长句子的信息含量高。在新闻中, 过短的句子信息含量少, 较长的句子是主题句的可能性更高。式(4)中阈值c 为16 个字。
D、命名实体。事件的who, whom, when, where等重要信息通常以命名实体或专有名词的形式出现在句子中。式(5)利用这一特征。
E、 句子与标题重合度。新闻标题的信息含量通常较高, 计算新闻句子与标题词的重合度, 如式所示, 可以评估句子的重要性。
4)主题句提取
综合利用上述文本和语义特征评估句子的重要性提取主题句。设新闻中有n 个句子, 假设句子的特征相互独立, 每个句子si(i≤ n)的总分是各个特征分量的线性组合, 如式(7)所示。
各个特征分量的权重wk 在数据集上通过训练之后会得到最优组合。利用标题提取主题句的方法依赖于标题的质量, 如果标题没什么意义, 这种方法就失去了作用。在这种情况下, 即使新闻中的句子与标题相似也无需认为它重要。相反, 如果句子中包含非常重要的词, 即使它不与标题相似, 也必须着重处理。因此,为了避免非提示性标题引入负效应, 我们用参数a表示标题分类的结果, 它作为开关决定是否使用标题特征, 这样就能保证计算句子重要性时只考虑提示性标题的特征。
五、小结
主题提取包括了主题句提取和关键字的提取。其提取的方式方式方法众多,国内外都有部分研究,但并不系统,很难直接投入实际运用中。但这些文献中的方式方法基本都指出主题句和关键词的提取主要取决于其权值。当权值大于某个阀值时,即提取为主题句或者关键词。所以解决主题提取的关键在于如何评定句子或词的权值。大致有如下思路可以入手:
1、 将句子或词语的长度、位置、频率等因素综合起来,分配相对应的系数,计算出句子或词语的权值。设定合适的阀值,通过阀值来界定各句子和词语。
2、 第一条中的系数和阀值要通过实验,不断尝试跟手工结果作比较,最后得出最精准的系数和阀值。