mahout 0.9 连接mysql_部署安装 Mahout

本文介绍了Apache Mahout 0.9的安装配置过程,包括环境变量设置,并展示了如何使用KMeans聚类算法。Mahout是一个提供机器学习算法的开源项目,支持Hadoop进行大规模数据处理。文章还提到了Mahout与MySQL的连接,但未详细展开。
摘要由CSDN通过智能技术生成

一、Mahout简介

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

b393ab29b5ab557712f8105e33286b66.png(就是他,骑在象头上的那个Mahout)

f6faaa33009c8b8b43cc5e473a31388b.png

在Mahout实现的机器学习算法:算法类算法名中文名

分类算法Logistic Regression逻辑回归

Bayesian贝叶斯

SVM支持向量机

Perceptron感知器算法

Neural Network神经网络

Random Forests随机森林

Restricted Boltzmann Machines有限波尔兹曼机

聚类算法Canopy ClusteringCanopy聚类

K-means ClusteringK均值算法

Fuzzy K-means模糊K均值

Expectation MaximizationEM聚类(期望最大化聚类)

Mean Shift Clustering均值漂移聚类

Hierarchical Clustering层次聚类

Dirichlet Process Clustering狄里克雷过程聚类

Latent Dirichlet AllocationLDA聚类

Spectral Clustering谱聚类

关联规则挖掘Parallel FP Growth Algorithm并行FP Growth算法

回归Locally Weighted Linear Regression局部加权线性回归

降维/维约简Singular Value Decomposition奇异值分解

Principal Components Analysis主成分分析

Independent Component Analysis独立成分分析

Gaussian Discriminative Analysis高斯判别分析

进化算法并行化了Watchmaker框架

推荐/协同过滤Non-distributed recommendersTaste(UserCF, ItemCF, SlopeOne)

Distributed RecommendersItemCF

向量相似度计算RowSimilarityJob计算列间相似度

VectorDistanceJob计算向量间距离

非Map-Reduce算法Hidden Markov Models隐马尔科夫模型

集合方法扩展Collections扩展了java的Collections类

方法一、Mahout安装、配置

一、下载Mahout

http://archive.apache.org/dist/mahout/

二、解压

tar -zxvf mahout-distribution-0.9.tar.gz

三、配置环境变量

3.1、配置Mahout环境变量

# set mahout environment

export MAHOUT_HOME=/home/yujianxin/mahout/mahout-distribution-0.9

export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

3.2、配置Mahout所需的Hadoop环境变量

# set hadoop environment

export HADOOP_HOME=/home/yujianxin/hadoop/hadoop-1.1.2

export HADOOP_CONF_DIR=$HADOOP_HOME/conf

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_HOME_WARN_SUPPRESS=not_null

四、验证Mahout是否安装成功

执行命令mahout。若列出一些算法,则成功,如图:

0cd2c2e24a37d3a99ec0d40e75559049.png

五、使用Mahout 之入门级使用

5.1、启动Hadoop

5.2、下载测试数据

5.3、上传测试数据

hadoop fs -put synthetic_control.data /user/root/testdata

5.4  使用Mahout中的kmeans聚类算法,执行命令:

mahout -core  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

花费9分钟左右完成聚类 。

5.5 查看聚类结果

执行hadoop fs -ls /user/root/output,查看聚类结果。

0427348c390a5967f412380e95be5d2c.png

Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。

1:下载二进制解压安装。

到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz

2:配置环境变量:在/etc/profile,/home/hadoop/.bashrc中添加如下红色信息

#set java environment

MAHOUT_HOME=/home/hadoop/mahout-distribution-0.7

PIG_HOME=/home/hadoop/pig-0.9.2

HBASE_HOME=/home/hadoop/hbase-0.94.3

HIVE_HOME=/home/hadoop/hive-0.9.0

HADOOP_HOME=/home/hadoop/hadoop-1.1.1

JAVA_HOME=/home/hadoop/jdk1.7.0

PATH=$JAVA_HOME/bin:$PIG_HOME/bin:$MAHOUT_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$PATH

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$HBASE_HOME/lib:$MAHOUT_HOME/lib:$PIG_HOME/lib:$HIVE_HOME/lib:$JAVA_HOME/lib/tools.jar

export MAHOUT_HOME

export PIG_HOME

export HBASE_HOME

export HADOOP_HOME

export JAVA_HOME

export HIVE_HOME

export PATH

export CLASSPATH

3:启动hadoop,也可以用伪分布式来测试

4:mahout --help   #检查Mahout是否安装完好,看是否列出了一些算法

5:mahout使用准备

a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)hadoop@ubuntu:~/$ hadoop fs -mkdir testdata #

hadoop@ubuntu:~/$ hadoop fs -put /home/hadoop/mahout-distribution-0.7/synthetic_control.data testdata

d.使用kmeans算法(这会运行几分钟左右)hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

e.查看结果hadoop@ubuntu:~/$ hadoop fs -lsr output

如果看到以下结果那么算法运行成功,你的安装也就成功了。

clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4 clusters-5  clusters-6  clusters-7  clusters-8  clusters-9  data

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值