文本预处理：TF-IDF

JaquanC

于 2019-04-04 23:37:57 发布

阅读量767

点赞数 1

分类专栏：机器学习文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kun_csdn/article/details/89037081

版权

前一篇博客已经讲了向量化，那么向量化之后一般都伴随着TF-IDF的处理，这篇博客就TF-IDF做一个解释。

１向量化特征的不足

还是上一篇博客中的例子，如果我们直接将统计词频后的 ${9}$ 维向量作为文本分类的输入，会发现一些问题。比如第一个文本 ${'This\ is\ the\ first\ document.'}$ ，每个词在该文本中都只出现了一次，似乎看起来很平等，但是，像 ${is}$ ， ${the}$ 这种特征非常普遍，几乎每个样本都会出现，经常出现的词说明它是烂大街的了，并不那么重要，不能和 ${first}$ 、 ${document}$ 等这种实义词混为一谈。我们的向量化特征仅仅用词频表示不了这种语义特征（语义信息），因此我们需要进一步的预处理来反映文本（词）的重要性，这就引出了 ${TF-IDF}$ 。

2 TF-IDF

TF-IDF，全名：Term Frequency - Inverse Document Frequency，即“词频-逆文本频率”，由两部分组成： ${TF}$ 和 ${IDF}$ 。
${TF}$ 就是我们说的词频，之前做的向量化已经做了文本中各个词的出现频率统计，并作为文本特征。词频 ${tf}$ 等于词 ${w}$ 在文档（或者一段文本） ${d}$ 中出现的次数 ${count(w,d)}$ 和文档 ${d}$ 中总词数 ${size(d)}$ 的比值。
${tf(w,d)=\frac{count(w,d)}{size(d)}}$ 。
关键是 ${IDF}$ 怎么计算，即“逆文档频率”怎么理解。其实 ${IDF}$ 是帮助我们来反应一个词的重要程度的，这也是它修正仅仅用词频表示的特征值的原因和目的。如果一个词在所有文本中都出现了，那么它的 ${IDF}$

最低0.47元/天解锁文章

博客等级

码龄10年

62
原创

517
点赞

2189
收藏

326
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 文本预处理：词袋模型与向量化

下一篇：: 编程体会：有效的流程很关键

最新评论

图解词嵌入、语言模型、Word2Vec
Candy: 个人感觉博主讲的没问题，论文里面讲到The main observation from the previous section was that most of the complexity is caused by the non-linear hidden layer in the model. While this is what makes neural networks so attractive, we decided to explore simpler models that might not be able to represent the data as precisely as neural networks, but can possibly be trained on much more data efficiently 就讲到把神经网络变成更简单的模型，去掉其中的隐藏层，其实就变成了比较简单的线性模型
图解词嵌入、语言模型、Word2Vec
Bohemian_: 个人觉得博主在第9点提出的“从神经网络改为逻辑回归模型”表达不是很对，应该是从多分类模型变为二分类模型吧？
Python实现简单的神经网络
qq_47828060: 最后损失函数的图怎么出啊求求啦
免插件即可修改Jupyter Notebook显示字体，字体大小
m0_61217501: 大佬请问行间距怎么改
Django: admin后台过滤器添加时间范围筛选
倒装8: 现在4.0想实现这种选择起始和截至日期该怎么做

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。