朴素贝叶斯中的TF-IDF值

最新推荐文章于 2022-11-07 11:38:44 发布

sharon@zhang

最新推荐文章于 2022-11-07 11:38:44 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签：自然语言处理机器学习朴素贝叶斯算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41797613/article/details/120537195

版权

TF-IDF是一种统计方法，用于评估单词在文档中的重要性。它是词频TF和逆向文档频率IDF的乘积，有助于文档分类。在朴素贝叶斯算法中，TF-IDF值高的单词更能区分文档。例如，"bayes"的TF-IDF值大于"this"，表明"bayes"是更好的分类特征。

摘要由CSDN通过智能技术生成

TF-IDF值

什么是TF-IDF值
TF-IDF如何计算

什么是TF-IDF值

TF-IDF是一个统计方法，用来评估某个词语对于一个文件集或者文档库中的其中一份文件的重要程度。

TF-IDF实际上是Term Frequency和Inverse Document Frequency的总称，二者缩写为TF和IDF，分别代表了词频和逆向文档频率。

词频TF计算了一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数成正比。

逆向文档频率IDF，是指一个单词在文档中的区分度。他认为一个单词出现在的文档数越少，就越能通过这个单词把该文档和其他文档区分开。IDF越大就代表该单词的区分度越大。

所以TF-IDF实际上是词频TF和逆向文档频率IDF的乘积。这样我们倾向于找到TF和IDF取值都高的单词作为区分，即这个单词在一个文档中出现的次数多，同时又很少出现在其他文档中。这样的单词适合用于分类。

TF-IDF如何计算

首先，我们看下词频TF和逆向文档概率IDF的公式：

在这里插入图片描述
为什么 IDF 的分母中，单词出现的文档数要加 1 呢？因为有些单词可能不会存在文档中，为了避免分母为 0，统一给单词出现的文档数都加 1。

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
朴素贝叶斯中的TF-IDF值

TF-IDF值什么是TF-IDF值TF-IDF如何计算什么是TF-IDF值TF-IDF是一个统计方法，用来评估某个词语对于一个文件集或者文档库中的其中一份文件的重要程度。TF-IDF实际上是Term Frequency和Inverse Document Frequency的总称，二者缩写为TF和IDF，分别代表了词频和逆向文档频率。词频TF计算了一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数成正比。逆向文档频率IDF，是指一个单词在文档中的区分度。他认为一个单词出现在的
复制链接

扫一扫

专栏目录

sharon@zhang CSDN认证博客专家 CSDN认证企业博客

码龄6年

37: 原创

10万+: 周排名

152万+: 总排名

22万+: 访问

: 等级

548: 积分

18: 粉丝

152: 获赞

18: 评论

555: 收藏

私信

关注

热门文章

分类专栏

数据库 3篇
sql 2篇
debug 3篇
python报错解决 3篇
机器学习 9篇
python基础知识 17篇
numpy 1篇
pandas 10篇
数据分析 7篇
LeetCode 1篇
数据清洗 1篇

最新评论

TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
忘川578: 请问下如何修改d.dataframe?
TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
忘川578: Traceback (most recent call last): File "c:Prooram FileslJet3rainsiPycharm Community Edition 2023.1.4\plugins python-ce helpers pydevpydevd.py", line 14%6,in _execpydev_imports.execfile(file, globals, locals) # execute the scriptRRRRRRRRRRRRRRRRRRRRRRRRRARRRRARRRRARRRAile "c: Program FileslJetBrainsycham omunity Edition 2025.1.4pluginsipython-ce helpersipydevl_pydey_imps_pydevexecfile.py", line 18,in execfileexec(compile(contents+"\n"， file.exec'), glob， loc)File "D:\工具们\py.work\pythonProject4\graphsAGEpytorch7.27\src\main.py"， line 73，in <module>ds, graphsage, classification, unsupervised loss. args,b sz.qraphSage， classification = apply_model(dataCenter.device，args.learn_methodargs .unsup loss .AAAAAAAAAARAAAAAAAAAAAAAAAAAAAAAAAAAARAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAARAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFile "n:\T File "D:\工具们\py10.11.4\Lib\random.py"，tine 439，in sampleraise TypeError("Population must be a sequence.For dicts or sets, use sorted(d) TypeError: Population must be a sequence.
SQL中row_number函数用法
weixin_46701500: 很透彻，懂了
TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
A11280304: 好的，我已经解决了
TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
sharon@zhang: 这里的话，d.dataframe代表一个dataframe。可以根据需要改成自己的数据

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sharon@zhang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。