1. 前言
本文提出一种中文短文本关键词抽取方案,适用于无监督语料场景。
无监督关键词抽取算法虽然无需标注语料,但是效果一般。有监督学习方法效果好但是需要标注数据,很多业务场景下并没有标注好的数据。能否结合无监督学习方法和有监督学习方法的长处,用无监督方法标注语料,然后用于训练有监督方法?为此我们用实验证明了该方案是可行的,文末给出代码地址。
2. 数据
我们选用联通问答数据集中的问题数据,从问题中提取联通业务关键词。下载地址
3. 方案
首先使用SIFRank方法标注语料,然后训练NegSamplingNER命名实体识别模型。
3.1 SIFRank
无监督关键词抽取算法选用SIFRank。原方法使用ELMO语言模型得到词向量和句向量,我们将其替换为RoBerta模型。原方法使用清华的分词工具thulac,我们对比了jieba、thulac、百度lac和哈工大LTP四种工具,发现LTP效果最好,于是我们选用LTP作为分词和词性标注工具。
SIFRank将名词