最近在看Spark MLlib,对于这个库,我想从宏观上看这个库能够干什么,以便更深入学习和使用它。
- Data types数据类型
- local vector向量
- Labeled point标记点
- local matrix矩阵
- distributed matirx分布矩阵
- RowMatrix
- IndexedRowMatrix
- CoordinateMatrix
- BlockMatrix
- basic statistic基本统计方法
- summary staticstics概要统计描述
- correlations相关性
- stratified sampling分层抽样
- hypothesis testing假设检验
- random data generation随机生成数据
- classificcation and regression 聚类和回归
- 线性模型(SVMs, logistic regression, linear regression)
- naive Bayes朴素贝叶斯
- decision trees决策树
- ensembles of trees(随机森林和梯度提升树)
- isotonic regression保序回归
- 保序回归载数值分析中指的是载保序约束下搜索加权w的最小二乘y以拟合变量x,它是一个二次规划问题。
- f(x)=/sumni=1wi(yi−xi)2
- collaborative filtering协同过滤
- alternating least squares(ALS)交替最小二乘法
- clustering聚类
- k-means
- Gaussian mixture高斯最大
- Power iteration clustering(PIC)快速迭代聚类算法
- latent Dirichlet allocation(LDA)隐含狄利克雷分布
- streaming k-means流式k-means
- Dimensionality reduction降维
- singular value decomposition(SVD)奇异值分解
- principal component analysis(PCA)主成分分析
- feature extraction and transformation
- TF-IDF
- Word2Vec
- StandardScaler标准定标器
- normalizer正则化
- feature selection特征选择
- chiSqSelector
- elementwiseProduct
- PCA主成分分析
- Frequent pattern mining频度模式挖掘(关联分析)
- FP-growth FP树
- association rules关联规则
- PrefixSpan
- 序列模式挖掘,是数据挖掘的一个重要分支,在序列事物及有关信息处理中有着广泛的应用。
- optimization(developer)优化器
- stochastic gradient descent随机梯度下降
- limited-memory BFGS(L-BFGS)
- PMML(Predictive Model Markup Language) model export
- Evaluation Metrics(1.5.2新增)
- Classification model evaluation分类模型评估
- Binary classification二分类问题
- multiclass classification多分类问题
- multilabel classification多标签分类
- ranking systems排序系统
- Regression model evaluation回归模型评估
- Classification model evaluation分类模型评估