NLP 关键词提取常用方法

本文探讨了多种特征词提取算法,包括TF-IDF、TextRank、基于LDA的关键词提取、Word2vec、基于语义的关键词提取(SKE)、TPR、改进的TF-PDF算法等,详细解析了各算法原理及应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征词提取常见算法

----------无监督----------
1.TF-IDF

重要性=每个单词的词频TF * 逆文档频率IDF。
思想:如果单词或短语在一篇文章中出现频率更高(TF值高)而在其他文章中出现少(DF值低,IDF值高),则认为该词或短语可以很好地代表文章,并可以用于分类。

2.TextRank

基于PageRank,该算法认为,如果在Page B中有指向Page A的链接,则Page B会投票给Page A,为了计算Page A的PageRank值,我们需要知道哪些page会投票给Page A。同时,PageRank值也会被投票page的质量影响。当一些高质量的页面投票给Page A,A的PR值就会上升,反之下降。
候选词的重要性根据它和其他候选词的关系来确定。将文本划分为几个组成单元(单词,短语,句子),并通过组成单元之间的相邻关系(共现关系)构建图模型。 节点的入口节点集代表其投票支持者的数量。 选民越多,权重越高,被投票节点的权重就越高。

可以结合位置加权等

3.基于LDA的关键词提取

LDA的训练,可以的得到一篇文章的主题分布p(z|di),和文章中词的主题分布p(z|wi),可以通过余弦相似度或者KL散度来计算这两个分布的相似性。如果文章的某一主题z的概率很大,而该文章中某个词对于该主题z也拥有更大的概率,那么该词就会有非常大的概率成为关键词。在gensim里,使用的方法是:候选的关键词与抽取的主题计算相似度并进行排序,得到最终的关键词。

-------------------------
4.Word2vec

候选词对应的词向量,对词向量进行聚类,距离聚类中心点最近的向量为关键词。

5.基
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值