关键词抽取

本文介绍了SIFRank模型在中文关键词抽取中的应用,结合预训练模型ELMO和句向量模型SIF,利用词频平滑、句向量计算、文档分割和位置偏权等方法,有效识别和排序候选关键词。ELMO模型解决了词的多义性问题,通过上下文调整词向量,提供丰富的词语表征。
摘要由CSDN通过智能技术生成

4.1 SIFRank模型:
从textrank想到使用预训练模型的抽取,选择的模型是:SIFRank_zh。
原模型是在英文上进行的,现模型修改为在中文上进行。
SIFRank原理:
核心算法:预训练模型ELMO + 句向量模型SIF
词向量ELMO的优势:
1、经过大规模预训练,较TFIDF、TextRank等基于统计和图的具有更多的语义信息
2、ELMO是动态的,可以改善一词多义问题
3、ELMO通过Char-CNN编码,对生僻词非常友好
4、不同层的ELMO可以捕捉不同层次的信息
句向量SIF的优势:
1、根据词频对词向量进行平滑反频率加权,能更好的捕捉句子的中心话题
2、更好的过滤通用词
候选关键词识别:
首先对句子进行分词和词性标注,再利用正则表达式确定名词短语(例如:形容词+名词),将名词短语作为候选关键词。
候选关键词短语重要程度排序(SIFRank)
利用相同的算法计算整个文档(或句子)和候选关键词短语的句向量,再依次进行相似度计算(余弦距离),作为重要程度
文档分割(DS)+ 词向量对齐(EA)
文档分割:通过对文档分为较短且完整的句子(如16个词左右),并行计算来加速ELMO
词向量对其:同时利用锚点词向量对不同句子中的相同词向量的词向量进行对齐,来稳定相同语境下的词向量表示。
位置偏权(SIFRank+)
核心思想

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
关键词抽取是一种用于从文本中提取出最具代表性的关键词的方法。在Python中,有多种方法可以实现关键词抽取,其中包括TF-IDF、TextRank和Word2Vec词向量聚类等方法。 TF-IDF是一种常用的关键词抽取方法,它通过计算词频-逆文档频率(TF-IDF)值来评估一个词在文本中的重要程度。TF-IDF的计算公式是根据词频和文档频率之间的关系来得出的。 TextRank是一种基于图的排序算法,它通过将文本中的词作为节点,根据词之间的共现关系构建图,并通过迭代计算节点的重要性得到关键词。TextRank算法可以将文本中的重要信息进行抽取和排序,从而得到关键词。 而Word2Vec词向量聚类是一种将单词表示为向量的方法。通过训练一个word2vec模型,我们可以将每个词映射为一个向量表示,然后可以使用向量之间的相似度来确定关键词。 在Python中,有多个库可以实现关键词抽取,其中比较常用的是jieba库。jieba库提供了一个简单易用的接口,可以方便地实现关键词抽取。你可以使用jieba库的tfidf函数来进行关键词抽取,通过调整函数的参数,可以实现不同的筛选和返回方式。 总结起来,关键词抽取是一种从文本中提取出最具代表性的关键词的方法,Python中可以使用TF-IDF、TextRank和Word2Vec词向量聚类等方法实现关键词抽取。其中,jieba库是一个常用的工具库,可以方便地实现关键词抽取。你可以通过调用jieba库的tfidf函数来进行关键词抽取,并通过调整参数来实现不同的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值