Mahout安装尝试

4 篇文章 0 订阅
4 篇文章 0 订阅

参考 blog.csdn.net/xqj198404/article/details/28601149


一、Mahout0.9安装


1、首先 从mirror.cc.columbia.edu/pub/software/apache/mahout/0.9/  下载到 .tar.gz 的mahout源码;

2、解压到某个地方 在 mahout/bin 路径下修改 mahou 文件,添加如下内容:

HADOOP_CONF_DIR="hadoop的配置目录需要以/结尾"  
HADOOP_HOME="hadoop的安装目录需要以/结尾"  
MAHOUT_HEAPSIZE=2000 mahout可以调用的内存量,建议设的比较大 

3、修改 hadoop etc路径下的 mapred-site.xml 添加如下内容:
<pre name="code" class="plain"><property>    
        <name>mapred.child.java.opts</name>  
        <value>-Xmx1024m</value>  
</property>  

修改 hadoop etc路径下的 hadoop-env.sh 添加如下内容:
export HADOOP_HEAPSIZE=2000 
至此 Mahout0.9的安装就全部完成了

二、Mahout0,9验证

1、从 http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 下载测试数据

2、将下载的到的测试数据文本存储到 hdfs 上:
./hadoop fs -put synthetic_control.data /user/root/testdata
注意:这里存放.data文件的路径需要这么写之后的例子才能执行。

3、到 mahout 的bin路径下执行如下:
bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job  
bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job  
bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job 

表示我只执行了第一个JOB,看上去是满成功的,花费了 1.7 min,给出了6个 cluster

4、检查 hdfs 里面 mahout 的输出情况却看到一堆头大的乱码如下:
<img src="https://img-blog.csdn.net/20140929212756325" alt="" />

看 <a target=_blank href="tech.ddvip.com/2013-11/1384964006206279.html">tech.ddvip.com/2013-11/1384964006206279.html</a> 这里说是需要反序列化:
<pre name="code" class="plain">mahout seqdumper -i xxx/xxx/xxx/part-r-00000 -o /data/patterns.txt

这是找不到output输出路径,改成了 hdfs:// 也找不到思密达...

以下是成功反序列化的结果:

 
 

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值