关键词提取算法总结

最新推荐文章于 2024-06-30 19:34:18 发布

卓玛cug

最新推荐文章于 2024-06-30 19:34:18 发布

阅读量1.2k

点赞数

分类专栏：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29153321/article/details/105188820

版权

推荐系统专栏收录该内容

16 篇文章 2 订阅

订阅专栏

一、TF-IDF

tf-idf = tf(词频)*idf(逆词频)
其中tf(词频)为该词在该文档中出现的次数/该文档总次数，
idf(逆词频) = log(N/1+N(x))，N为总文档数，N(x)为文档中出现该词的文档数。

二、Textrank

TextRank思想非常简单：通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。
TextRank将某一个词与其前面的N个词、以及后面的N个词均具有图相邻关系（类似于N-gram语法模型）。具体实现：设置一个长度为N的滑动窗口，所有在这个窗口之内的词都视作词结点的相邻结点；则TextRank构建的词图为无向图。
TextRank的迭代计算公式如下：
在这里插入图片描述
其中，WS(Vi)表示结点Vi的rank值，In(Vi)表示结点Vi的前驱结点集合，Out(Vj)表示结点Vj的后继结点集合，d为damping factor用于做平滑。该公式仅仅比PageRank多了一个权重项Wji，用来表示两个节点之间的边连接有不同的重要程度。

Textrank效果一般不优于TF-IDF，倾向于将频繁词作为关键词。并且涉及到构建词图及迭代计算，所以提取速度较慢。

三、LDA

文档主题生成模型，词袋模型，完全考虑词语的分布来判断其主题分布，并依据每个文本的主题概率分布来进行聚类。LDA的目的就是要识别主题，即把文档—词汇矩阵变成文档—主题矩阵（分布）和主题—词汇矩阵（分布）。计算词分布与文档分布的相似度，取相似度最高的几个词。

LDA 采用词袋模型。所谓词袋模型，是将一篇文档，我们仅考虑一个词汇是否出现，而不考虑其出现的顺序。在词袋模型中，“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n-gram。

缺点是局限性大，受样本种类限制，投影空间的维数最多为样本数量N-1维。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关键词提取算法总结

一、TF-IDFtf-idf = tf(词频)*idf(逆词频)其中tf(词频)为该词在该文档中出现的次数/该文档总次数，idf(逆词频) = log(N/1+N(x))，N为总文档数，N(x)为文档中出现该词的文档数。二、TextrankTextRank思想非常简单：通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。Tex...
复制链接

扫一扫

专栏目录

卓玛cug CSDN认证博客专家 CSDN认证企业博客

码龄9年

62: 原创

24万+: 周排名

211万+: 总排名

18万+: 访问

: 等级

2244: 积分

65: 粉丝

89: 获赞

51: 评论

827: 收藏

私信

关注

热门文章

分类专栏

推荐系统 16篇
深度学习 20篇
机器学习 5篇
Spark大数据 2篇
数据库 8篇
爬虫 2篇
研发 14篇

最新评论

文本特征处理及文本聚类的几种方法
slivinh: 好像没有tfidf_Resulttag.txt
基于矩阵分解(MF,Matrix Factorization)的推荐算法
CSDN-Ada助手: 非常感谢您的分享，这篇博客详细介绍了基于矩阵分解的推荐算法，对我们学习推荐系统非常有帮助。我认为下一篇博客可以继续探讨推荐算法的优化和应用，特别是在个性化推荐领域的应用，这样的技术文章对其他用户也会非常有启发。期待您的下一篇博客。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
dlib人脸识别代码解读
m0_47910325: 太感谢了，想写毕业论文找半天找不到原理
回归模型-kaggle房价预测
sanmini: 你好，我想问一下inference是怎么来的呀
文本特征处理及文本聚类的几种方法
mzzmx: 你这个问题解决了吗

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。