Hadoop计算文档的中每个词的TFIDF值

最新推荐文章于 2019-12-02 21:56:44 发布

linglingbaby

最新推荐文章于 2019-12-02 21:56:44 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签：文档 hadoop mapreduce 数据挖掘

数据挖掘专栏收录该内容

24 篇文章 0 订阅

订阅专栏

做数据挖掘的最常见的就是要对文档向量化，而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢？本文讲解一下使用Hadoop计算TFIDF值的步骤，在其它地方也有不少这方面的介绍，本文仅供参考。

在本地进行TFIDF计算需要三步：

1. 统计数据集中独立词的个数，并统计它们的IDF;

2. 对每个文档统计每个独立词出现的次数TF；

3. 用独立词的IDF与每个文档中独立词的TF进行交，得到每个文档中每个独立词的TFIDF。

在Hadoop上需要是四步MapReduce：

1. 统计得到记录 DocID ItemID TF

2. 统计ItemID IDF

3. 上面两个结果进行相交得到，DocID ItemID TFIDF

4. 对第三步的结果进行合并得到 DocID ItemID1 TFIDF1 ItemID2 TFIDF2 …

当然这两种方法进行之前都要先对文档进行分词。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop计算文档的中每个词的TFIDF值

做数据挖掘的最常见的就是要对文档向量化，而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢？本文讲解一下使用Hadoop计算TFIDF值的步骤，在其它地方也有不少这方面的介绍，本文仅供参考。在本地进行TFIDF计算需要三步：1. 统计数据集中独
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。