对于tf与idf的个人理解

#对于tf与idf的理解

  • 对于这两个名词,我们都理解,但是为什么要弄出tf*idf来表示一个词的重要性呢?
  • 对于idf,也就是逆文档频率如何去理解?

​ 逆文档频率的公式是log(总文档数/出现该词的文档数),要说发明这个公式的人是真的厉害因为log()里面的这个商,他永远是大于等于1的,一个词出现文章越多,idf就会越小,说明什么,说明这词的普遍率较高,不是那么特殊,不是我们想要的ssr(稀有啊) 。举个例子我们理解一下:

​ 比如说:我有500篇文章关于抢劫的文章,里面都会有“a”这个词,tf 我们可以不管,因为每一篇文章出现的词频率是不一样的。但是那么idf呢,很显然它是0啊,因为log(1)等于0啊。那么不管tf是多少,tfidf都是0。再举几个例子‘b’在某一篇文章的tf为0.5,‘c’也是0.5,但是包含b的有100,包含C50篇。那么有关于b的tfidf将会比c的小,所以c较为反映这篇文章的特征,能成为我们需要的关键词。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值