使用mahout进行数据挖掘

mahout使用:

步骤一:
tar -xvf mahout-0.3.tar.gz

需要指定hadoop的路径和配置文件的路径
export HADOOP_HOME=/home/hadoopuser/hadoop-0.19.2<wbr><br> export HADOOP_CONF_DIR=/home/hadoopuser/hadoop-0.19.2/conf</wbr>


步骤二:
通过这个命令可以查看mahout提供了哪些算法,以及如何使用
bin/mahout --help

bin/mahout kmeans --input /user/hive/warehouse/tmp_data/complex.seq<wbr><wbr> --clusters<wbr> 5 --output<wbr> /home/hadoopuser/1.txt<br><br> mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看<br> eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&amp;highlight=sequencefile<br><br> mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。<br> (You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.)<br> 使用方法如下:<br><br> $MAHOUT_HOME/bin/mahout seqdirectory \<br> --input &lt;PARENT DIR WHERE DOCS ARE LOCATED&gt; --output &lt;OUTPUT DIRECTORY&gt; \<br> &lt;-c &lt;CHARSET NAME OF THE INPUT DOCUMENTS&gt; {UTF-8|cp1252|ascii...}&gt; \<br> &lt;-chunk &lt;MAX SIZE OF EACH CHUNK in Megabytes&gt; 64&gt; \<br> &lt;-prefix &lt;PREFIX TO ADD TO THE DOCUMENT ID&gt;&gt;<br><br> 举个例子:<br> bin/mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset UTF-8</wbr></wbr></wbr></wbr>


步骤三:
运行kmeans的简单的例子:

1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata
例如:
bin/hadoop fs<wbr><wbr> -put /home/hadoopuser/mahout-0.3/test/synthetic_control.data<wbr> /user/hadoopuser/testdata/<br><br> 2:使用kmeans算法<br> $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job<br> 例如:<br> bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job<br><br> 3:使用canopy算法<br> $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job<br> 例如:<br> bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job<br><br> 4:使用dirichlet<wbr>算法<br> $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job<br><br> 5:使用meanshift算法<br> meanshift : $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.meanshift.Job<br><br> 6:查看一下结果吧<br> bin/mahout vectordump --seqFile /user/hadoopuser/output/data/part-00000<br> 这个直接把结果显示在控制台上。<br><br> 可以到hdfs中去看看数据是什么样子的<br> 上面跑的例子大多以testdata作为输入和输出文件夹名<br> 可以使用<wbr>bin/hadoop fs -lsr<wbr>来查看所有的输出结果<br><br> KMeans 方法的输出结果在<wbr> output/points<br> Canopy 和 MeanShift 结果放在了 output/clustered-points</wbr></wbr></wbr></wbr></wbr></wbr></wbr>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值