基于hadoop+mahout的逻辑回归实验

最新推荐文章于 2017-12-06 14:19:00 发布

码海岛主

最新推荐文章于 2017-12-06 14:19:00 发布

阅读量965

点赞数 1

分类专栏：分布式、软件工程、matlab

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bloodfeast/article/details/77850025

版权

分布式、软件工程、matlab 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

今天参照

http://www.netfoucs.com/article/fansy1990/76224.html

和

http://jayatiatblogs.blogspot.hk/2013/05/running-mahouts-logistic-regression.html

两篇博文，开始了hadoop上的逻辑回归实验。

在hadoop上进行机器学习实验，需要用到一个高层的框架名为mahout，意思是驭象人，所以它的功能自然就是让你更好地驾驭hadoop这头小象咯。

mahout的安装略过不说，直接说如何使用mahout。Mahout里面使用逻辑回归（logistic regression）的主要两个类是org.apache.mahout.classifier.sgd.TrainLogistic、org.apache.mahout.classifier.sgd.RunLogistic，一个是建立模型，一个是进行模型评估。在使用时，直接写trainlogistic这种形式就行，系统会自动识别。不过注意不能写成TrainLogistic，不然会无法识别。

使用时的命令如下：

./bin/mahout trainlogistic --input ~/whx/hadoop/logistic_data.csv --output ~/whx/hadoop/logistic.model --target y --categories 2 --predictors x1.......x1000 --types numeric --features 20 --passes 100 --rate 50

注意其中加粗的部分，一共有1到1000个变量，实在太长了。。。暂时还没找到好的办法缩减，只能全部敲上去了。另外一个需要注意的是，在上面链接中第二篇博客提到的，--types n n这种写法是错误的，会导致无法生成想要的模型，改成--types numeric就行了

最后，若要对已有模型进行测试，则输入

bin/mahout runlogistic --input logistic_test.csv --model logistic.model --auc --scores --confusion

即可进行测试

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于hadoop+mahout的逻辑回归实验

今天参照http://www.netfoucs.com/article/fansy1990/76224.html和http://jayatiatblogs.blogspot.hk/2013/05/running-mahouts-logistic-regression.html两篇博文，开始了hadoop上的逻辑回归实验。在hadoop上进行机器学习实验，需要用到一个高层的框架名为m
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。