TYD-python数据分析与机器学习实战（文本挖掘部分笔记）

最新推荐文章于 2023-06-16 18:54:28 发布

语译分西

最新推荐文章于 2023-06-16 18:54:28 发布

阅读量257

点赞数 1

分类专栏：文本挖掘，情感分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42167712/article/details/109725289

版权

本文介绍了Python在文本数据分析中的应用，包括使用TF-IDF进行关键词提取，通过文档相似度计算（如余弦相似度）来评估文本相关性，利用jieba的TF-IDF功能和LDA主题模型进行文本分析。重点讨论了TF-IDF的原理以及LDA如何揭示文本中的主题。

摘要由CSDN通过智能技术生成

文章目录

一、19章 Python文本数据分析：新闻分类任务

一、19章 Python文本数据分析：新闻分类任务

1.1 TF-IDF：关键词提取

TF就是Term Frequency 词频，IDF 是Inverse Document Frequency

1.对语料/文本进行词频统计(Term Frequency)，比如说对《中国的蜜蜂养殖》这个文本进行统计
2.出现最多的是：的，是，在等常用词，也就是停用词，要删去的
3.剩下的有：中国，蜜蜂，养殖，这三个词经常出现，但是很明显这三个词重要性不一样，就比如说中国，这个词在所有文本中都太常见了，在这个《中国的蜜蜂养殖》文本中就不太重要。
4.而蜜蜂，养殖这两个词对于其他文本来说出现的次数就少，对于《中国的蜜蜂养殖》来说就很重要，突出了主题

IDF:逆文档频率
如果某个词很少见，但在某个文档中出现次数很多，那么它很可能反映这个文档的特性。正是我们要找的关键词
在这里插入图片描述

log通常以10为底，当语料库的文档总数越多，但包含该词的文档数越小时，越能说明这个词越重要

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TYD-python数据分析与机器学习实战（文本挖掘部分笔记）

文章目录一、19章 Python文本数据分析：新闻分类任务1.1 TF-IDF：关键词提取1.2 文档相似度1.3 TF-IDF结巴提取1.4 LDA主题模型一、19章 Python文本数据分析：新闻分类任务1.1 TF-IDF：关键词提取TF就是Term Frequency 词频，IDF 是Inverse Document Frequency1.对语料/文本进行词频统计(Term Frequency)，比如说对《中国的蜜蜂养殖》这个文本进行统计2.出现最多的是：的，是，在等常用词，也就是停用词，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。