1.mahout的源码实现了两部分:
(1)mahout核心源码
(2)mahout定制Collections集合工具
2.Mahout源码目录说明
mahout-core:核心程序模块,位于/core目录下
mahout-math:核心程序使用的一些数据通用计算模块,位于/math目录下
mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下
3.mahout-collections
实现了核心程序中使用的集合类操作,该模块独立于mahout进行开发,是对标准jdk关于集合类的修改,使其适应数据密集型项目的开发。
(一)mahout core源码目录结构
(1)mahout核心源码
(2)mahout定制Collections集合工具
2.Mahout源码目录说明
mahout-core:核心程序模块,位于/core目录下
mahout-math:核心程序使用的一些数据通用计算模块,位于/math目录下
mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下
3.mahout-collections
实现了核心程序中使用的集合类操作,该模块独立于mahout进行开发,是对标准jdk关于集合类的修改,使其适应数据密集型项目的开发。
(一)mahout core源码目录结构
src/main/java
org.apache.mahout
--cf.taste
--common
--eval
--hadoop
--als
--item
--preparation
--similarity.item
--impl
--common
--jdbc
--eval
--model
--file
--neighborhood
--recommender
--svd
--similarity
--file
--precompute
--model
--neighborhood
--recommender
--similarity
--precompute
--classifier
--df
--builder
--data
--conditions
--mapreduce
--inmem
--partial
--node
--ref
--split
--tools
--evaluation
--mlp
--naivebayes
--test
--training
--sequencelearning.hmm
--sgd
--clustering
--canopy
--classify
--fuzzykmeans
--iterator
--kernel
--kmeans
--lda.cvb
--spectral
--kmeans
--streaming
--cluster
--mapreduce
--topdown
--postprocessor
--common
--commandline
--distance
--iterator
--sequencefile
--lucene
--mapreduce
--nlp
--parameters
--driver
--ep
--fpm.pfpgrowth
--convertors
--integer
--string
--fpgrowth
--fpgrowth2
--math
--hadoop
--decomposer
--similarity
--cooccurrence
--solver
--stats
--stochasticsvd
--qr
--neighborhood
--random
--ssvd
--stats
--vectorizer
--collocations.llr
--common
--document
--encoders
--pruner
--term
--tfidf
(二)mahout Collections集合类
src/main/java
--collections
--math
--bitvector
--buffer
--function
--list
--adapter
--map
--set