0 概述
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过一些关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。
关键词:来源英文keywords,从应用上看,是指单个媒体在制作使用索引时,所用到的词汇。从学术上看,是指为了文献标引工作从报告、论文中选取出来的用以表示全文主题内容信息款目的单词或术语。其中单词是指能包含一个词素(语言中最小的有意义的单位)的词或语言里最小的可以自由运用的单位,术语则是指某个学科中的专业用语。综上所述,关键词是表达文本主题内容的词,包括单词,术语和短语,在含义上是独立非复合的。包含一定的信息量,对文本内容的理解有作用。根据包含文本信息量的大小,分为核心关键词,拓展关键词,(无价值词,非关键词)
核心关键词:包含文本主题核心内容的关键词,一般不超过文本内容的3%,个数不超过5个。
拓展关键词:核心关键词之外的关键词,不是文本的核心内容,但与文本内容相关,具有一定的信息量。
1 基本流程图
2 算法介绍
2.1 主要分类
关于文本的关键词提取方法分为有监督、半监督和无监督三种:
1)有监督
将关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的训练预料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取。
2)半监督
只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
3)无监督
不需要人工标注的语料,利用文本语言特点发现其中比较重要的词作为关键词,进行关键词抽取。
注:因有监督的文本关键词提取算法需要人工标注训练样本,成本很高,所以常见的文本关键词提取主要采用适用性较强的无监督关键词抽取。
2.2 主要算法
关键词抽取的算法如下图:
2.2.1基于统计特征的关键词提取算法
基于于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词。基于统计特征的关键词抽取方法的关键是采用什么样的特征值量化指标的方式,目前常用的有三类:
2.2.1.1基于词权重的特征量化
基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。
2.2.1.2基于词的文档位置的特征量化
这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题。
2.2.1.3基于词的关联信息的特征量化
词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。
下面介绍几种常用的特征值量化指标。
1)词性
词性是通过分词、语法分析后得到的结果。现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,名词与其他词性相比更能表达一篇文章的主要思想。但是,词性作为特征量化的指标,一般与其他指标结合使用。
2)词频
词频表示一个词在文本中出现的频率。一般我们认为,如果一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。词频简单地统计了词在文本中出现的次数,但是,只依靠词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音。
3)位置信息
一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性