![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
文章平均质量分 82
hopeatme
一切从头做起
展开
-
spark 1.6 MLlib
MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始API 2 spark.ml 包含上层操作DataFrame 的API, 可以构造机器学习管道, 推荐使用sp翻译 2016-01-19 21:26:52 · 2640 阅读 · 0 评论 -
Spark MLlib 1.6 -- 数据类型篇
译者续: 2016年过完年回来,把之前翻译spark mllib部分从新整理,继续未完成的工作。 MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始A翻译 2016-02-19 21:10:29 · 1609 阅读 · 0 评论 -
Spark MLlib 1.6 -- 统计基础篇
· Summary statistics· Correlations· Stratified sampling· Hypothesis testing· Streaming Significance Testing· Random data generation· Kernel density estimation2.1 统计概览在Statistic翻译 2016-02-19 21:13:24 · 2481 阅读 · 0 评论 -
Spark MLlib 1.6 -- 分类和回归篇
· Linear models· classification (SVMs, logistic regression)· linear regression (least squares, Lasso, ridge)· Decision trees· Ensembles of decision trees· random forests· gradient-boost翻译 2016-02-19 21:42:19 · 4098 阅读 · 0 评论 -
Spark ML 2.1 --Pipelines
首先要引入概念 机器学习管道(ML pipelines),ML pipelines 提供基于DataFrames的高级API , 此API可以帮忙开发者创建和实践ML 管道。Table of ContentsMain concepts in PipelinesDataFramePipeline componentsTransformersEstimato翻译 2017-04-29 13:05:43 · 1326 阅读 · 0 评论 -
Spark ML 2.1 -- Extracting, transforming and selecting features (持续更新)
本章节覆盖特征相关的算法部分,可粗分为以下几组: 1> 抽取: 从原始数据中抽取特征2> 变换:缩放,转化,或修改特征3> 选择: 从特征集合中选择子集4> Locality Sensitive Hashing (LSH) : 将特征变换和其它算法组合在一起的一类算法。目录: Feature ExtractorsTF-IDFWord2VecCo翻译 2017-05-02 22:44:23 · 851 阅读 · 0 评论