[特征工程]Chap4. 特征缩放:TF-IDF

本章通过BOW 到tf-idf的变化,讨论 feature scaling 的效果.

TF-IDF: BOW的变种

tf-idf可以说就是BOW基础上的变种, 全称: term frequency- inverse document frequency ,中文: 词频-逆文件频率.

BOW记录文件中的词频, 明显的问题就是会强调一些没意义的词, 如英文中的 'the' 'and' 'it' 等等词频会很高, 而一些带有关键信息的词却没有被强调出来. 而逆文件频率就很好的解决了这一问题, 这个算法有意思的就是在于以一种高效自动的方式给 各种词的重要性 赋权重.

基础公式如下:

bow(w,b) = #times word w appears in document d

tf-idf(w,d) = bow(w,d) * N/ (#documents in which word w appears)

其中 N 是数据集中文档的数量,  N/(#documents in which word w appears) 就是IDF, 逆文档频率. 若 idf 接近1, 意味着这个词w出现在大部分文档中; 若词w仅出现在几个文档中, idf 就会很高.

当然, log transform 是更好的选择:

tf-idf(w,d) = bow(w,d) * log N/ (#documents in which word w appears)

总结一下: tf-idf makes rare words more prominent and effectively ign

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值