TF-IDF提取关键词并用余弦算法计算相似度

最新推荐文章于 2023-05-12 18:59:47 发布

VIP文章 itgeeks

最新推荐文章于 2023-05-12 18:59:47 发布

阅读量7.8k

点赞数

分类专栏：数据挖掘文章标签：算法文本处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whzhcahzxh/article/details/17552091

版权

TF-IDF算法是一个很易懂的关键词提取算法，算法易实现，易懂且易操作，缺陷是将词频作为唯一考虑因素，且对于位置没有敏感性，位置的问题可以通过人为添加权重的方式改善，比如给第一段最后一段，或者每一段的第一句话加高权重。。。（类似于总分，总分总啥的文本结构吧）

TF-IDF算法简单描述：

TF是Term Frequency的缩写，即单纯的计算词频，比如，两句话分别是“我最喜欢吃我做的土豆”，“我最喜欢海”，因为是简介，就不讲究完备性，不将这句话分词，只考虑每个字，那么，第一句话中，“我”出现了两次，其他的字各出现了一次，第二句中，所有的字都出现了一次，那么计算TF的时候，只用将每个字的出现次数除以总字数即可：

TF = 文章中出现次数/文章总词数

【我：0.2，最：0.1，喜：0.1，欢：0.1，吃：0.1，做

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
TF-IDF提取关键词并用余弦算法计算相似度

TF-IDF算法是一个很易懂的关键词提取算法，算法易实现，易懂且易操作，缺陷是将词频作为唯一考虑因素，且对于位置没有敏感性，位置的问题可以通过人为添加权重的方式改善，比如给第一段最后一段，或者每一段的第一句话加高权重。。。（类似于总分，总分总啥的文本结构吧）TF-IDF算法简单描述：TF是Term Frequency的缩写，即单纯的计算词频，比如，两句话分别是“我最喜欢吃我做的土豆
复制链接

扫一扫

专栏目录

itgeeks CSDN认证博客专家 CSDN认证企业博客

码龄12年

41: 原创

25万+: 周排名

70万+: 总排名

16万+: 访问

: 等级

1883: 积分

20: 粉丝

14: 获赞

20: 评论

68: 收藏

私信

关注

热门文章

分类专栏

图像 1篇
数据库 12篇
数据挖掘 13篇
java 2篇
R语言 7篇
python 13篇
机器学习 3篇
自然语言处理 1篇
算法blog 8篇
mrjob 2篇
linuxc++ 2篇

最新评论

mac osx系统g++编译c++
wutheringcoo: 该命令查看版本：g++ -std=c++11 `pkg-config --cflags --libs opencv4` opencv_version.cpp -o try_by_me 却出现问题：dyld: Library not loaded: @rpath/libopencv_gapi.4.0.dylib，该怎么解决呢？
python解析gbk编码的xml
道迩求索: 应该是decode被他写错了。
python解析gbk编码的xml
challenge24: encode完了是byte，怎么replace
gensim做主题模型
alijwook: 最后有一点没太看明白，计算similarity时sims = index[query_lsi]；sims = index[tfidf[vec]]；为什么index中的类型是不同的？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。