TF-IDF简易说明


百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?


大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。




最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。


所以,只要能够用一个向量来代表文章,然后计算它与分类向量的夹角,就能够做出分类了。



最简单的是求词汇的频率


但是只考虑词汇频率的算法是有漏洞的


那怎么计算一个词预测主题的能力呢,可以用到IDF。



结合词汇的频率和逆文本频率,就得到一种比较好的算法了。


- 本文出自中华MOD网,原文地址:http://www.1mod.org/thread-133190-1-1.html
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值