1.mahout的源码实现了两部分:
(1)mahout核心源码
(2)mahout定制Collections集合工具
2.Mahout源码目录说明
mahout-core:核心程序模块,位于/core目录下
mahout-math:核心程序使用的一些数据通用计算模块,位于/math目录下
mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下
3.mahout-collections
实现了核心程序中使用的集合类操作,该模块独立于mahout进行开发,是对标准jdk关于集合类的修改,使其适应数据密集型项目的开发。
(一)mahout core源码目录结构
(二)mahout Collections集合类
(1)mahout核心源码
(2)mahout定制Collections集合工具
2.Mahout源码目录说明
mahout-core:核心程序模块,位于/core目录下
mahout-math:核心程序使用的一些数据通用计算模块,位于/math目录下
mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下
3.mahout-collections
实现了核心程序中使用的集合类操作,该模块独立于mahout进行开发,是对标准jdk关于集合类的修改,使其适应数据密集型项目的开发。
(一)mahout core源码目录结构
- src/main/java
- org.apache.mahout
- --cf.taste
- --common
- --eval
- --hadoop
- --als
- --item
- --preparation
- --similarity.item
- --impl
- --common
- --jdbc
- --eval
- --model
- --file
- --neighborhood
- --recommender
- --svd
- --similarity
- --file
- --precompute
- --model
- --neighborhood
- --recommender
- --similarity
- --precompute
- --classifier
- --df
- --builder
- --data
- --conditions
- --mapreduce
- --inmem
- --partial
- --node
- --ref
- --split
- --tools
- --evaluation
- --mlp
- --naivebayes
- --test
- --training
- --sequencelearning.hmm
- --sgd
- --clustering
- --canopy
- --classify
- --fuzzykmeans
- --iterator
- --kernel
- --kmeans
- --lda.cvb
- --spectral
- --kmeans
- --streaming
- --cluster
- --mapreduce
- --topdown
- --postprocessor
- --common
- --commandline
- --distance
- --iterator
- --sequencefile
- --lucene
- --mapreduce
- --nlp
- --parameters
- --driver
- --ep
- --fpm.pfpgrowth
- --convertors
- --integer
- --string
- --fpgrowth
- --fpgrowth2
- --math
- --hadoop
- --decomposer
- --similarity
- --cooccurrence
- --solver
- --stats
- --stochasticsvd
- --qr
- --neighborhood
- --random
- --ssvd
- --stats
- --vectorizer
- --collocations.llr
- --common
- --document
- --encoders
- --pruner
- --term
- --tfidf
- src/main/java
- --collections
- --math
- --bitvector
- --buffer
- --function
- --list
- --adapter
- --map
- --set