Hadoop计算文档的中每个词的TFIDF值

 

做数据挖掘的最常见的就是要对文档向量化,而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢?本文讲解一下使用Hadoop计算TFIDF值的步骤,在其它地方也有不少这方面的介绍,本文仅供参考。

 

在本地进行TFIDF计算需要三步:

1.       统计数据集中独立词的个数,并统计它们的IDF;

2.       对每个文档统计每个独立词出现的次数TF

3.       用独立词的IDF与每个文档中独立词的TF进行交,得到每个文档中每个独立词的TFIDF

 

Hadoop上需要是四步MapReduce

1.       统计得到记录 DocID ItemID TF

2.       统计ItemID IDF

3.       上面两个结果进行相交得到,DocID ItemID TFIDF

4.       对第三步的结果进行合并得到 DocID ItemID1 TFIDF1 ItemID2 TFIDF2 …

 

当然这两种方法进行之前都要先对文档进行分词。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值