TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档

TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档!

文本分类入门(番外篇)特征选择与特征权重计算的区别     一开始感觉好烧脑,,后来深入分析了一下,懂了    不禁觉得该文章说的真好,指纹的例子极好~~


注意:根据TF的定义,tf是该词在该文档(一个!)中的频率,IDF是对总文档数m除以该词所在的文档数x取对数,对于整个文档集来说m是固定不变的,那么x越大,IDF越小(看IDF数学公式),TFIDF越小,该词越不能代表该文档;反过来说,x越小,IDF越大,TFIDF越大,该词越能代表该文档。极端例子来说,如果该词只存在于第五个文档中,其他文档中都没有,那么该词就越能代表第五个文档,此时你不能说该词就重要,它只是能够代表第五个文档,而不能代表剩余其他任何一个文档。

说权重代表的是差别,而不是优劣!

如此,你就再也不会拿TFIDF去做特征选择了。


那么,为什么论文中还在用呢,况且准确率还那么高呢?

因为,那是全监督学习!!半监督学习就无用武之地了!!根据TFIDF公式,计算得出该词能够代表这个文档,你就把该文档标注为该词,你说准确率高不高呢?!

也就是说,TFIDF只能用来全监督学习,因为该词只是能够代表该文档,对于文档集中其他文档都代表不了,更何况一个新的文档呢?!

这听起来有点自欺欺人的赶脚~~


所以,就像引文中说的,再提到TFIDF时,把权重忘掉吧,就用量化或者区分来代替好了。

那怎么看谁重要谁不重要呢?这就依赖于具体的选择方法如何来量化重要程度,对卡方检验信息增益这类方法来说,量化以后的得分越大的特征就越重要(也就是说,有可能有些方法,是得分越小的越重要)。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值