---- Spark MLlib
文章平均质量分 96
基于 scala / python 编程的 Spark 2.0 机器学习,学习过程中,部分案例参考自网上,欢迎大家共同讨论
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
【Spark MLlib】(六)协同过滤 (Collaborative Filtering) 算法分析
文章目录一、协同过滤1.1 概念1.2 分类二、矩阵分解2.1 显式矩阵分解2.2 隐式矩阵分解(关联因子分确定,可能随时会变化)2.3 最小二乘法(Alternating Least Squares ALS):解决矩阵分解的最优化方法三、Spark MLlib中ALS算法的应用一、协同过滤1.1 概念协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品...原创 2020-04-01 16:12:31 · 2582 阅读 · 10 评论 -
【Spark MLlib】(五)随机森林(Random Forest)分析
目前,Spark MLlib 中实现了 tree 相关的算法,决策树DT(DecisionTree),随机森林 RF(Random Forest),GBDT(Gradient Boosting Decision Tree),其基础都是RF,DT 是 RF 一棵树时的情况,而 GBDT 则是循环构建DT,GBDT与DT的代码是非常简单明了的,本文会对 Random Forest 进行分析,介绍 Spark 在实现过程中使用的一些技巧。原创 2020-03-30 19:57:45 · 6096 阅读 · 16 评论 -
【Spark MLlib】(四)K-Means 聚类分析
使用 Spark 机器学习库来做机器学习工作,可以说是非常的简单,通常只需要在对原始数据进行处理后,然后直接调用相应的 API 就可以实现。但是要想选择合适的算法,高效准确地对数据进行分析,可能还需要深入了解下算法原理,以及相应 Spark MLlib API 实现的参数的意义,本文带你了解 K-means 聚类算法。文章目录一、K-means 聚类算法原理二、K-means 实现三、K值的选择...原创 2020-03-14 16:15:54 · 1471 阅读 · 0 评论 -
【Spark MLlib】(三)Spark MLlib 数据基础
文章目录一、矩阵向量计算二、分类效果评估指标三、交叉-验证方法一、矩阵向量计算Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同事也提供了Vector和Linalg等的实现。1、Breeze创建函数2、Breeze元素访问 3、Breeze元素操作&n...转载 2020-03-14 10:02:24 · 1394 阅读 · 0 评论 -
【Spark MLlib】(二)Spark MLlib 特征工程 - 提取、转换和选择
Spark MLlib中关于特征处理的相关算法,大致分为以下几组:提取(Extraction):从“原始”数据中提取特征转换(Transformation):缩放,转换或修改特征选择(Selection):从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing,LSH):这类算法将特征变换的各个方面与其他算法相结合。文章目录一、特征的提取1....转载 2020-03-13 22:46:47 · 2210 阅读 · 2 评论 -
【Spark MLlib】(一)架构解析(包含分类、回归、聚类和协同过滤)
文章目录一、前言二、MLlib的底层基础解析三、MLlib的算法库分析四、MLlib的实用程序分析一、前言从以下架构图可以看出MLlib主要包含三个部分:底层基础:包括Spark的运行库、矩阵库和向量库;算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;实用程序:包括测试数据的生成、外部数据的读入等功能。二、MLlib的底层基础解析底层基础部分主要包括向量接口和矩阵...原创 2020-04-01 14:14:16 · 1829 阅读 · 6 评论 -
Spark 中 ML 和 MLlib 的特点和区别
大数据学习过程中一个重要的环节就是spark,但是在spark中有很多的知识点,很多人都傻傻分不清楚,其中,最易搞混的就是ml与mllib的区别,所以我们不妨来详细的了解一下二者的区别。...原创 2020-04-01 10:49:09 · 1389 阅读 · 4 评论 -
【Spark ML】(二)Spark ML 分类算法
主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含:LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。文章目录1. Logistic regression1.1 二分类LR1.2 多分类LR2. 决策树分类器3. 随机森林分类器4. 梯度提升树分类器5. 多层感知器分类器6. 线性支持向量机7. One-vs-Rest分类器8. 朴素...原创 2020-03-14 15:42:11 · 2519 阅读 · 1 评论 -
【Spark ML】(一)Spark ML Pipelines
Spark ML Pipeline 的引入,是受到 scikit-learn 的启发,虽然 MLlib 已经足够简单实用,但如果目标数据集结构复杂,需要多次处理,或是在学习过程中,要使用多个转化器 (Transformer) 和预测器 (Estimator),这种情况下使用 MLlib 将会让程序结构极其复杂。所以,一个可用于构建复杂机器学习工作流应用的新库已经出现了,它就是 Spark 1.2...原创 2020-03-13 14:16:30 · 4187 阅读 · 10 评论 -
初识 Spark MLlib 机器学习
Spark MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。原创 2020-04-01 11:26:57 · 753 阅读 · 2 评论
分享