ML 算法之TF-IDF

TF-IDF直观来说就是来确定一个词对某一篇文档的重要性,而这个重要性的核定还用基于一个语料库
  • 由于TF-IDF这样的一个功能,它就可以被用来提取一个文档中的关键字
  • 当我们有了关键字之后,关键字就又可以代表一个文档,并用其来计算文档之间的相似度
TF-IDF的解释
  • TF(term frequency)的计算:这个文档中的每个词出现的频率
  • IDF(inverse document frequency):逆文档频率
    本来每个词出现的次数越多那么说明这个词越重要(当然像‘的’,‘了’等这些词不算),但是遇到另一个问题,当我们遇到几个词它们的TF是一样的,那我们应该怎么决定谁是最重要的呢?

  • 有一种情况,当一个词一般情况下被使用的比较少,但是在这篇文档中突然的多了起来,说明这个词对于这篇文章很重要

  • 另一种情况,虽然一个词不是一个停用词但是它也是会经常用的到,说明这个词对于这篇文章相对于第一种情况来说没有那么重要。
    这就需要我们来平衡他们的重要性,可以采取权重的方式,这就是IDF,它是在整个语料库上来衡量一个词的使用情况。
TF-IDF计算方式
  • TF( term frequency ):这个词在这篇文档中出现的次数
    • 它的计算方式不一定,TF=最简单的就是频次
      当一个文档很长的时候我们可以考虑进行标准化:
    • 例如是 TF=这个词在这篇文档中出现的次数/这篇文档的词的个数
    • 或者是 TF=这个词在这个文档中出现的次数/这篇文档中频率最高的那个词的频次等等。
  • IDF(inverse document frequency):出现在这个词语的文档数与整个语料库的文档数的比例关系。
    • IDF=log(出现这个词的文档的个数/(整个语料库的文档数+1))

最后,TF-IDF=TF*IDF

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值