数据分析理论【9】之文本分析

最新推荐文章于 2022-10-27 21:34:12 发布

三猪

最新推荐文章于 2022-10-27 21:34:12 发布

阅读量813

点赞数

分类专栏：数据分析文章标签：文本分析数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39739342/article/details/100068300

版权

数据分析专栏收录该内容

18 篇文章 6 订阅

订阅专栏

合辑传送门 -->> 数据分析-合辑

目录

TF-IDF：关键词提取

文本相似度

TF-IDF：关键词提取

词频（Term Frequency，缩写为TF）

逆文档频率（Inverse Document Frequency，缩写为IDF）

我们能发现到，词频其实代表的是利用当前文章中的该词出现的频率，来代表该词的重要性。而我们也知道像一些常用的词（例如‘你’‘我’‘他’等等）出现的频率很高但并不属于我们要找的关键词，所以单独从词频上确认关键词的方法是行不通的。

而我们利用IDF，通过与语料库进行对比，如果语料库中包含该词的文档数越多，也就代表这词越普遍存在，IDF的取值就越小，TF-IDF的值也相对变小。

文本相似度

简单流程：文本 -> 分词 -> 语料库 -> 词频 -> 词频向量

当然直接从词频比较难表达出文本语意，现在比较常见是做法有word2vec、Gensim（python库）【之后再学习，学完自爱回来不从】

文本相似度可以通过计算向量之间的余弦相似度获得

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析理论【9】之文本分析

合辑传送门 -->>数据分析-合辑目录TF-IDF：关键词提取文本相似度TF-IDF：关键词提取词频（Term Frequency，缩写为TF）逆文档频率（Inverse Document Frequency，缩写为IDF）我们能发现到，词频其实代表的是利用当前文章中的该词出现的频率，来代表该词的...
复制链接

扫一扫

专栏目录

三猪 CSDN认证博客专家 CSDN认证企业博客

码龄7年

144: 原创

23万+: 周排名

127万+: 总排名

54万+: 访问

: 等级

4386: 积分

143: 粉丝

232: 获赞

99: 评论

1180: 收藏

私信

关注

分类专栏

java 9篇
python 24篇
数据分析 18篇
C 11篇
数据结构 7篇
git学习 3篇
爬虫 11篇
Ubuntu 8篇
数据库 1篇
不知所云 6篇
理论与基础 12篇
题库 48篇
深度学习
机器学习 2篇

最新评论

beautifulsoup解析html后内容缺失
公司战略与风险管理: 感谢！解决了
电信云2020校招-技术笔试题
qq_40482919: 楼主，是哪个类型的岗位的笔试啊？c++ java Python？
FIR数字带通滤波器(Python实现)
_一串随机数: 下载后还有一堆问题
数据分析小练手【3】之 credit_card数据集(逻辑回归)
Leloz: 如果报错，则把df.as_matrix()改写成df.values
华为2020校招-软件题
qq_40190568: 估计是传播半径之类的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。