![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
buracag_mc
一个做着金融梦看着各种书码着代码志从数据挖掘与统计机器学习的篮球爱好者与统计人
展开
-
【Spark】Pipelines
同步于Buracag的博客在本节中,我们将介绍ML Pipelines的概念。 ML Pipelines提供了一组基于DataFrame构建的统一的高级API,可帮助用户创建和调整实用的机器学习流程。文章目录1. 管道中的主要概念1.1 DataFrame1.2 Pipeline 组件1.2.1 Transformers1.2.2 Estimators1.2.3 Pipeline组件的属性1....原创 2019-08-30 13:54:29 · 228 阅读 · 0 评论 -
【Spark】特征工程1-Extractors
同步于Buracag的博客Spark MLlib中关于特征处理的相关算法,大致分为以下几组:提取(Extraction):从“原始”数据中提取特征转换(Transformation):缩放,转换或修改特征选择(Selection):从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing,LSH):这类算法将特征变换的各个方面与其他算法相结合。...原创 2019-09-02 11:08:01 · 352 阅读 · 0 评论 -
【Spark】特征工程2-Transformers
同步于Buracag的博客Spark MLlib中关于特征处理的相关算法,大致分为以下几组:提取(Extraction):从“原始”数据中提取特征转换(Transformation):缩放,转换或修改特征选择(Selection):从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing,LSH):这类算法将特征变换的各个方面与其他算法相结合。...原创 2019-09-02 13:50:01 · 459 阅读 · 0 评论 -
【Spark】分类和回归算法-分类
同步于Buracag的博客本节主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含:LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。文章目录1. Logistic regression1.1 二分类LR1.2 多分类LR2. 决策树分类器3. 随机森林分类器4. 梯度提升树分类器5. 多层感知器分类器6. 线性支持向量机7. One...原创 2019-09-03 10:37:59 · 1144 阅读 · 1 评论 -
【Spark】分类和回归算法-回归
同步于Buracag的博客本节主要讲Spark ML中关于回归算法的实现。示例的算法Demo包含:线性回归、广义线性回归、决策树回归、随机森林回归、梯度提升树回归等。文章目录1. 线性回归(Linear regression)2. 广义线性回归(Generalized linear regression)3. 决策树回归(Decision tree regression)4. 随机森林回归(R...原创 2019-09-04 18:18:53 · 1079 阅读 · 0 评论 -
【Spark】聚类分析
同步于Buracag的博客本节主要讲Spark ML中关于聚类算法的实现。示例的算法Demo包含:K-means、LDA、高斯混合模型(GMM)等。文章目录1. K-means1.1 输入1.2 输出2. 隐狄利克雷分布(Latent Dirichlet Allocation, LDA)3. 二分K-means(Bisecting K-means)4. 混合高斯模型(Gaussian Mixt...原创 2019-09-04 19:29:24 · 1547 阅读 · 0 评论 -
【Spark】协同过滤
同步于Buracag的博客协同过滤通常用于推荐系统。这些技术旨在根据user-item关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤,其中users和items由一小组可用于预测缺失条目的潜在因子(latent factors)描述。 spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:numBlocks,是users和...原创 2019-09-09 17:36:08 · 779 阅读 · 0 评论 -
【Spark】频繁项集挖掘
同步于Buracag的博客挖掘频繁项目,项目集,子序列或其他子结构通常是分析大规模数据集的第一步,这是数据挖掘多年来一直活跃的研究课题。 可以参考一下维基百科中关于关联规则学习的基础知识。文章目录1. FP-Growth1. FP-GrowthFP-growth算法在Han等人的文章中描述,挖掘频繁模式而没有候选生成,其中“FP”代表频繁模式。 给定数据集,FP-growth的第一步是计算...原创 2019-09-09 17:47:56 · 1495 阅读 · 0 评论 -
【Spark】模型选择和调优
同步于Buracag的博客介绍如何使用MLlib的工具来调整ML算法和Pipelines。 内置的交叉验证和其他工具允许用户优化算法和pipelines中的超参数。文章目录1. 模型选择(亦称 超参数调优)2. 交叉验证3. 训练集-验证集划分1. 模型选择(亦称 超参数调优)ML中的一项重要任务是模型选择,或使用数据来查找给定任务的最佳模型或参数。这也称为调整。可以针对单个estimat...原创 2019-09-10 14:56:46 · 618 阅读 · 0 评论