Mahout初探(一)

Supported Algorithms

Classification

Logistic Regression(SGD)

Bayesian

Support Vector Machines(SVM)

Perceptron and Winnow

Neural Network

Random Forests

Restricted Boltzmann Machines

Online Passive Aggressive

Boosting

Hidden Markov Models

 

Clustering

Canopy Clustering

K-Means Clustering

Fuzzy K-Means

Expectation Maximization (EM)

Mean Shift Clustering

Hierarchical Clustering

Dirichlet Process Clustering

Latent Dirichlet Allocation

Spectral Clustering

Minhash Clustering

Top Down Clustering

 

Pattern Mining

Parallel FP Growth Algorithm

 

Dimension reduction

Singular Value Decomposition and other Dimension Reduction Techniques

Stochastic Singular Value Decomposition with PCA workflow

Principal Components Analysis

Independent Component Analysis

Gaussian Discriminative Analysis

 

Recommenders / Collaborative Filtering

Non-distributed recommenders ("Taste")

Distributed Item-Based Collaborative Filtering

Collaborative Filtering using a parallel matrix factorization

 

Install and use

下载Mahout(http://www.apache.org/dyn/closer.cgi/mahout/ ), 解压;

在MAHOUT_HOME/bin目录下,在mahout中添加:

export JAVA_HOME=XXXX

export HADOOP_HOME=XXXX

export HADOOP_CONF_DIR=XXXX

HADOOP_CONF_DIR如果没设置,会默认为HADOOP_HOME/conf

 

编译:MAHOUT_HOME目录下,执行mvn clean && mvn compile && mvn -DskipTests install

好了, 提示SUCCESS则OK

(注意:提前装好maven)

 

how to use

在MAHOUT_HOME/bin目录下,执行./mahout --help 可以看到mahout目前拥有的算法

也可以在MAHOUT_HOME/src/conf/driver.classes.props文件中查看各个算法的入口,如果要添加新的算法,也可以在这个文件中注册。

算法的执行:

例如执行贝叶斯分类 (训练过程)

MAHOUT_HOME/bin目录下 执行./mahout trainnb -h 查看参数

(注意:以前的版本可能是 ./mahout trainclassifier -h ,这里我用的是目前最新版本:mahout-distribution-0.9 ) 

reference

参考https://cwiki.apache.org/MAHOUT/quickstart.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值