到http://labs.renren.com/apache-mirror/mahout/0.9下载,我选择下载二进制包,直接解压及可。
hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.9.tar.gz
2:配置环境变量:在/etc/profile, 添加MAHOUT_HOME 环境变量
export MAHOUT_HOME=/home/xuhui/hadoop-2.2.0/mahout-distribution-0.9
export PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib:$MAHOUT_HOME/lib:$JRE_HOME/lib:$CLASSPATH
注意:修改完环境变量一定要执行命令-source /etc/profile
3:启动hadoop
4:mahout --help #检查Mahout是否安装完好,看是否列出了一些算法
5:mahout使用准备
a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。
b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh
c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)
hadoop@ubuntu:~/$ hadoop fs -mkdir testdata # hadoop@ubuntu:~/$ hadoop fs -put /home/xuhui/桌面/synthetic_control.data testdata
d.使用kmeans算法(这会运行几分钟左右)
hadoop@ubuntu:~/$ hadoop jar /home/xuhui/hadoop-2.2.0/mahout-distribution-0.9/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
e.查看结果
hadoop fs -cat /user/xuhui/output/data/part-m-00000
如果看到以下结果那么算法运行成功,你的安装也就成功了。
clusteredPoints clusters-0 clusters-1 clusters-10 clusters-2 clusters-3 clusters-4 clusters-5 clusters-6 clusters-7 clusters-8 clusters-9 data
可是我看到的全是乱码:
@:U�S��
@;��?@;�_o��@A�8}�H@=��҈�p!@?�33333聖⤉觜౾ⵀ益祲廼成《䤅竟契ԇ፝᠃誓昑㐄衙@?G�)^�)@$Uf�A�@@��?0@+7X�e@=��7��4,@,$�/9@1����@�%@)SMj8@'���>B[*@0V�(��;@.^vȴ9X@8�/��@8��@��4@@\�!-w@8��G�{#@@��E��4@0�-V@?�8�YJ�&@,:�~�@9�u%F5@_�Ew�U����f!"���uԶ+�F6�"60<<@>l64�@0��zxl""@7�:�~�@AK��C�] @�)@9au�S@6lj~��#1@7U�R�$@0i�����0�
���%� @A�n��O�@=��:@.�?�@A�e���3@6�M����@?
@A�b��}V
@;8r� Ĝ@AQ��oiD@@�@<$SMj!@6��YJ�声
硬∵
ⵀ翫ᄜ瑪眶正᠓琼橿契加娅ܓ布誠學匿ᐒ@;@��4m�)@6�hۋ�q @<٦�
┛政紗瘫褂ᩀ昏儙万潭⬟唛西裃熱ᑻ伽訣⬟唛㴐誠珥窯飆╂⥱ᱠ當紮成藷凝)ЮV�u+@-�y��
ፀ斜ठб垰整芍祲䜂誓䤠枩ᨷ聖簘弆瘔祇俄倓⤪ ∀ 彊<㰀精瑪䨌ᕍὀ畳抜喉凄క䰘弇р澄〉‧删星半滞釿Հ㼁腸遍⠈請朿崖崖ـ䄘枩ᨶ挞成管հ濶ᡀヂཛྷ⡵䌝晴ばጩ⨰雲
。。。。。。。。
这是怎么回事呢???求高手解答???
自己经过查看找才发现是由于mahout查看的方式变了,献给出正确方式在控制台查看:
mahout vectordump --input /user/xuhui/output/data/part-m-00000