使用TF-IDF算法进行数据处理（附代码）

etSha

已于 2022-04-06 18:42:13 修改

阅读量4.5k

点赞数 3

文章标签： python 数据分析数据挖掘中文分词

于 2022-04-06 18:23:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/etSha/article/details/123994316

版权

本文详细介绍了TF-IDF算法，如何通过计算词频和逆文档频率来确定文本中高频且重要的词汇。步骤包括在单篇文章中计算词频、语料库中计算IDF，并结合两者得到TF-IDF。实例演示了Python中jieba库的使用，同时讨论了算法的优势与不足。

摘要由CSDN通过智能技术生成

· 什么是TF-IDF？

TF-IDF(term frequency–inverse document frequency)是一种加权技术，用于文本数据的挖掘与清洗。

· 使用情境

现有大段文本数据，希望从中获得高频、有效的词汇。

e.g. 文本数据：“今天天气很好，适合出去玩。”→n.天气；a.好；v.出去/玩

（Task:从中找出类似的词汇并统计词频）

· 算法步骤

如上，TF-IDF算法实现分为三步：

1.单篇文章中，计算TF：

Denote Xi=词汇i出现次数，X=文章总词汇数

$TF=\frac{Xi}{X}$

#为什么要计算TF？

A：为了看一篇文章/一段文字中词汇i出现的频率。

2.语料库中，计算IDF：

Denote Y=语料库中文章总数，Yi=包含词汇i的文章数

最低0.47元/天解锁文章

关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
8
评论
使用TF-IDF算法进行数据处理（附代码）

使用TF-IDF算法，对中文文本进行分词、停词及词频计算。
复制链接

扫一扫

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。