如何对热词进行提取

热词

简单地理解热词就是某文档中出现频率高的且非无用的词语。

朴素的想法

文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。

干扰项

  • 标点符号,一般标点符号没有价值,去掉。
  • 停词,停词没有特别的意义,一般也要去掉,比如“是”,“的”,"the","that","this"等。

词权重

现在可能还存在问题,假如某文档中多个term出现的次数相同,则不好判别他们之间哪个更重要。因为缺少词权重。此权重叫逆文档频率(IDF),某个term的权重可定为:


其中,T为统计样本中总文档数,t为包含某term的文档数。

包含该term的文档数越大,说明越不重要。

TF-IDF

有了TF和IDF就可以通过他们一起决定Term的重要性。

  • TF为某term在文档出现的次数。
  • IDF则按照上面公式计算。
  • 则TF-IDF为TF乘以IDF。

IDF统计样本

其实有几种方式来统计IDF。

  • 自己收集样本库进行统计。
  • 第三方统计好的IDF表。
  • 借助百度或谷歌搜索引擎,这种方式不准确。随便取个m值假设为总文档,再搜索某个term得到n条结果,则认为n除以m即为IDF。

====广告时间,可直接跳过====

鄙人的新书《Tomcat内核设计剖析》已经在京东预售了,有需要的朋友可以到 item.jd.com/12185360.ht… 进行预定。感谢各位朋友。

=========================

欢迎关注:

这里写图片描述
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值