4.1 SIFRank模型:
从textrank想到使用预训练模型的抽取,选择的模型是:SIFRank_zh。
原模型是在英文上进行的,现模型修改为在中文上进行。
SIFRank原理:
核心算法:预训练模型ELMO + 句向量模型SIF
词向量ELMO的优势:
1、经过大规模预训练,较TFIDF、TextRank等基于统计和图的具有更多的语义信息
2、ELMO是动态的,可以改善一词多义问题
3、ELMO通过Char-CNN编码,对生僻词非常友好
4、不同层的ELMO可以捕捉不同层次的信息
句向量SIF的优势:
1、根据词频对词向量进行平滑反频率加权,能更好的捕捉句子的中心话题
2、更好的过滤通用词
候选关键词识别:
首先对句子进行分词和词性标注,再利用正则表达式确定名词短语(例如:形容词+名词),将名词短语作为候选关键词。
候选关键词短语重要程度排序(SIFRank)
利用相同的算法计算整个文档(或句子)和候选关键词短语的句向量,再依次进行相似度计算(余弦距离),作为重要程度
文档分割(DS)+ 词向量对齐(EA)
文档分割:通过对文档分为较短且完整的句子(如16个词左右),并行计算来加速ELMO
词向量对其:同时利用锚点词向量对不同句子中的相同词向量的词向量进行对齐,来稳定相同语境下的词向量表示。
位置偏权(SIFRank+)
核心思想
关键词抽取
于 2022-06-08 14:14:05 首次发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)