例子Breiman

[size=large]介绍[/size]
快速的介绍怎么运行Breiman例子。在Breiman页实现了测试步骤描述。
如下是基础的算法:
。重复I次迭代
。每次迭代执行:
。有10%的数据从测试数据中分离
。编译2个独立的森林,用来训练集合。一个使用m=int(log2(M)+1) (称为随机输入),另外一个使用m=1(称为单一输入)
。选择一个森林,给出最低的误差结果估计,和计算测试误差结果
。计算测试的误差结果,使用单一输入森林,这里证明平坦的m=1,给予每个森林比较大的m值做比较
。计算平均测试误差,使用每个森林中的树。这里将指出怎样执行一个单一决策树

[size=large]步骤[/size]
下载数据
#lass : http://archive.ics.uci.edu/ml/datasets/Glass+Identification
# breast cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
# diabetes : http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
# sonar : http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
# ionosphere : http://archive.ics.uci.edu/ml/datasets/Ionosphere
# vehicle : http://archive.ics.uci.edu/ml/datasets/Statlog+(Vehicle+Silhouettes)
# german : http://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

将数据放到HDFS
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata


[size=large]编译[/size]
进到$MAHOUT_HOME/,执行
mvn install -DskipTests


[size=large]生成数据文件[/size]
根据glass dataset (glass.data),执行
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/core/target/mahout-core-<VERSION>-job.jar org.apache.mahout.df.tools.Describe -p testdata/glass.data -f testdata/glass.info -d I 9 N L



[size=large]运行例子[/size]
$HADOOP_HOME/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-<VERSION>-job.jar org.apache.mahout.df.BreimanExample -d testdata/glass.data -ds testdata/glass.info -i 10 -t 100

选择构建100树(参数-t),重复测试10次迭代(参数-i)


原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Breiman+Example
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值