文本预处理挖掘之TF-IDF附使用互信息进行特征挑选的过程(任务二)

本文介绍了TF-IDF的概念及其在文本数据预处理中的作用,讲解了如何使用sklearn进行TF-IDF计算,并探讨了特征挑选的重要性,特别是通过互信息进行特征选择的过程。内容包括TF-IDF的参数介绍、特征筛选的方法以及互信息在特征相关性评估中的应用。
摘要由CSDN通过智能技术生成

文本数据预处理之TF-IDF

我们知道词频矩阵是将n-gram词的频率转成向量(频数放置相应维度),但我们可以很明显的发现问题,一些在很多文本中频繁出现的常用词(有些时候我们会将其当做停用词删掉)其权重会比较高,但是其实因为它几乎在每句话都会出现,故而其重要性也许并不如词频矩阵所表现的那样。

TF-IDF概述(词频-逆文本频率)

TF也就是我们所说的词频,而IDF指的是逆文本频率,IDF反映了一个词在所有文本中出现的频率,如果一个词在很多的文本出现,那么他的IDF值应该很低。

                    IDF(x)=log((N+1)/(N(x)+1))+1

在这里插入图片描述

其中N代表语料库中文本的总数(样本数),而N(x)代表语料库中有多少文本包含词x。 至于图片中分子分母包括取对数后加的1都是为了使IDF平滑(类似于加载分母上的eplcsion)

这时,我们的TF-IDF值就呼之欲出了:TF-IDF(x) = TF(x) * IDF(x)

TF-IDF的sklearn调用

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值