- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 mahout并行bayes分类源码分析-2
2模型 BayesModel 类时用来表示训练结果的数据结构,BayesClassifier 需要使用。is the data structure used to represent the results of the training for use by the BayesClassifier. A Model can be created by hand, or, if usi...
2010-11-27 00:21:31 85
原创 贝叶斯并行分类分析
1 贝叶斯训练器所在包:Package org.apache.mahout.classifier.bayes实现机制The implementation is divided up into three parts:The Trainer -- responsible for doing the counting of the words and ...
2010-11-27 00:20:02 173
原创 mahout分类源码分析
mahout分类源码分析接口Interface OnlineLearner:实现的类:AbstractOnlineLogisticRegression, AdaptiveLogisticRegression, CrossFoldLearner, OnlineLogisticRegression方法如下:void train(int actual, Vec...
2010-11-19 17:33:03 130
原创 BayesWeightSummerMapper
import java.io.IOException;import org.apache.hadoop.io.DoubleWritable;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;import org.apache.hadoop.mapred.O...
2010-11-13 18:58:54 92
原创 mahout从文本建造向量
IntroductionFor clustering documents it is usually necessary to convert the raw text into vectors that can then be consumed by the clustering Algorithms. These approaches are described below.Fro...
2010-11-13 18:55:24 128
原创 Ubuntu下的vncserver
Ubuntu下包含2种远程桌面的方式:VINO-Server以及VNC Server。其中Vino-Server是Ubuntu自带的远程桌面服务器,也就是在系统(System) —> 首选项(Preferences) —> 远程桌面(Remote Desktop)下,可以很容易开启,然后就可以使用VNC Viewer进行远程桌面连接。具体开通办法,可以参见《Ub...
2010-11-13 18:52:49 408
原创 K-均值聚类(K-means clustering)
K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相...
2010-11-12 13:42:55 322
原创 mahout转化成eclipse项目
1、从http://www.apache.org/dyn/closer.cgi/lucene/mahout/ 下载mahout0.4代码2、下载maven http://maven.apache.org/ 左侧菜单中的get mevan3、解压两个包4、打开命令行窗口5、进行mahout目录:cd mahout保存目录/6、让maven生成eclipse项...
2010-11-12 13:25:18 74
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人