《Spark 官方文档》机器学习库（MLlib）指南

最新推荐文章于 2023-03-29 09:09:20 发布

提莫_

最新推荐文章于 2023-03-29 09:09:20 发布

阅读量226

点赞数

分类专栏： AI BigData 文章标签：机器学习 AI spark ML

本文链接：https://blog.csdn.net/weixin_40976261/article/details/108710576

版权

BigData 同时被 2 个专栏收录

41 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

并发编程网 - ifeve.com
http://ifeve.com/spark-mllib/
官方文档
http://spark.apache.org/docs/latest/mllib-data-types.html
	Data types（数据类型）
	Basic statistics（基础统计）
		summary statistics（摘要统计）
		correlations（相关性）
		stratified sampling（分层抽样）
		hypothesis testing（假设检验）
		streaming significance testing
		random data generation（随机数据生成）
	Classification and regression（分类和回归）
		linear models (SVMs, logistic regression, linear regression)（线性模型（SVM，逻辑回归，线性回归））
		naive Bayes（朴素贝叶斯）
		decision trees（决策树）
		ensembles of trees (Random Forests and Gradient-Boosted Trees)（树套装（随机森林和梯度提升决策树））
		isotonic regression（保序回归）
	Collaborative filtering（协同过滤）
		alternating least squares (ALS)（交替最小二乘（ALS））
	Clustering（聚类）
		k-means（K-均值）
		Gaussian mixture（高斯混合）
		power iteration clustering (PIC)（幂迭代聚类（PIC））
		latent Dirichlet allocation (LDA)（隐含狄利克雷分配）
		bisecting k-means（平分K-均值）
		streaming k-means（流式K-均值）
	Dimensionality reduction（降维）
		singular value decomposition (SVD)（奇异值分解（SVD））
		principal component analysis (PCA)（主成分分析（PCA））
	Feature extraction and transformation（特征抽取和转换）
	Frequent pattern mining（频繁模式挖掘）
		FP-growth（FP-增长）
		association rules（关联规则）
		PrefixSpan（PrefixSpan）
	Evaluation metrics（评价指标）
	PMML model export（PMML模型导出）
	Optimization (developer)（优化（开发者））
		stochastic gradient descent（随机梯度下降）
		limited-memory BFGS (L-BFGS)（有限的记忆BFGS（L-BFGS））
		
	spark.ml: 机器学习管道高级API
		Overview: estimators, transformers and pipelines（概览：评估器，转换器和管道）
		Extracting, transforming and selecting features（抽取，转换和选取特征）
		Classification and regression（分类和回归）
		Clustering（聚类）
		Advanced topics（高级主题）
	虽然还有些降维技术在spark.ml中尚不可用，不过用户可以将spark.mllib中的的相关实现和spark.ml中的算法无缝地结合起来。