关键词抽取

qq_47537678

已于 2022-06-08 14:22:40 修改

阅读量383

点赞数

分类专栏：项目实训文章标签：自然语言处理机器学习深度学习

于 2022-06-08 14:14:05 首次发布

本文链接：https://blog.csdn.net/qq_47537678/article/details/125183532

版权

本文介绍了SIFRank模型在中文关键词抽取中的应用，结合预训练模型ELMO和句向量模型SIF，利用词频平滑、句向量计算、文档分割和位置偏权等方法，有效识别和排序候选关键词。ELMO模型解决了词的多义性问题，通过上下文调整词向量，提供丰富的词语表征。

摘要由CSDN通过智能技术生成

4.1 SIFRank模型：
从textrank想到使用预训练模型的抽取，选择的模型是：SIFRank_zh。
原模型是在英文上进行的，现模型修改为在中文上进行。
SIFRank原理：
核心算法：预训练模型ELMO + 句向量模型SIF
词向量ELMO的优势：
1、经过大规模预训练，较TFIDF、TextRank等基于统计和图的具有更多的语义信息
2、ELMO是动态的，可以改善一词多义问题
3、ELMO通过Char-CNN编码，对生僻词非常友好
4、不同层的ELMO可以捕捉不同层次的信息
句向量SIF的优势：
1、根据词频对词向量进行平滑反频率加权，能更好的捕捉句子的中心话题
2、更好的过滤通用词
候选关键词识别：
首先对句子进行分词和词性标注，再利用正则表达式确定名词短语（例如：形容词+名词），将名词短语作为候选关键词。
候选关键词短语重要程度排序（SIFRank）
利用相同的算法计算整个文档（或句子）和候选关键词短语的句向量，再依次进行相似度计算（余弦距离），作为重要程度
文档分割（DS）+ 词向量对齐（EA）
文档分割：通过对文档分为较短且完整的句子（如16个词左右），并行计算来加速ELMO
词向量对其：同时利用锚点词向量对不同句子中的相同词向量的词向量进行对齐，来稳定相同语境下的词向量表示。
位置偏权（SIFRank+）
核心思想