SIFRank: A New Baseline for Unsupervised
Keyphrase Extraction Based on Pre-Trained
Language Model
Reading Date: September 19, 2022
Type: Thesis
论文:https://ieeexplore.ieee.org/document/8954611
项目:https://github.com/yukuotc/SIFRank_zh
SIFRank: 一个基于预训练模型的无监督关键词抽取的模型
它由两部分组成:句向量模型SIF和自回归预训练模型ELMO。
在短文本中它表现优异。
document segmentation和contextual word embeddings alignment在保证accuracy的前提下加速了SIFRank。
我们用position-biased weight升级SIFRank to SIFRank+,极大地提高了在长文本中的表现。
传统无监督方法
- 基于统计信息
- 基于n-gram,语法,词频等
- 基于图
- 例:textrank
SIFRank模型
- document进行分词和词性标注
- 提取其中的noun phrases
- 利用ELMO得到字向量和NP向量
- 利用SIF模型将字向量和NP向量投影成同一层、同一维度的向量
- 计算两个向量间的cos相似度,选择top n作为最后keyphrases,同时也可以得到分数
SIF模型
选择SIF作为sentence embedding model的原因是
- 它适配大部分预训练模型
- 通过SIF模型得到的句向量可以很好地反应document的主题
Model Domain Adaption
weight_com是提前在大型语料里统计的词频。weight_dom则是在垂直领域上的统计词频。
Document Segmentation
把文章输入ELMO之前,先将文章分块,这样可以并行独立运算。
Embedding Alignment
因为文章分块后,丢失了完整的上下文信息,这里用了EA方法进行保留。
SIFRank+
POSITION-BIASED WEIGHT FOR LONG DOCUMENTS