Mahout中分布式bayes实现-转

最新推荐文章于 2017-12-13 21:00:42 发布

nuoline

最新推荐文章于 2017-12-13 21:00:42 发布

阅读量487

点赞数

分类专栏： Hadoop研究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nuoline/article/details/8610617

版权

Hadoop研究专栏收录该内容

85 篇文章 1 订阅

订阅专栏

Mahout中实现了不少分布式数据挖掘算法，协同推荐，分类聚类算法，协同推荐前段时间看了一下，大概明白了里面的原理，想来也不是高不可攀的东西。

这几天要回学校了，在公司也没有多少事情，所以就查看了一些bayes方面的代码，如果有时间的话，在看看聚类以及RandomForest算法的一些实现。

Mahout中的bayes实现分为三部分，

1. 样本构建; 通过org.apache.mahout.classifier.BayesFileFormatter来实现，它将一组文件转换成label\t term1 term2 term3 …这样的格式，供后面分类器构造和分类时使用; 代码分析在前几篇博文中提供了;

2. 训练; 通过org.apache.mahout.classifier.bayes.TrainClassifier实现，它会调用BayesDriver来构建的map reduce类，它们会生成Bayes中间的参数信息，供分类时使用;

3. 测试分类; 通过 org.apach.mahout.classifier.bayes.TestClassifier 实现，它分为串行执行和并行执行两种; 这部分分类前要先调用org.apache.mahout.classifier.bayes.datastore中的一个DataStore类型，由于笔者对于HBase不了解，所以会在后面介绍InMemoryBayesDatastore这个类，它会在分类前被初始化，初始化的对象中保存了在第二步得到的中间参数信息。

后面会逐步将与上面几步相关的代码注释贴出来，以备后用。

http://anqiang1900.blog.163.com/blog/static/1141888642010373345947/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。