博客专栏  >  云计算/大数据   >  spark.mllib源码阅读与分析

spark.mllib源码阅读与分析

重点介绍Spark中的机器学习算法、研读相关算法的Spark实现方式。

关注
10 已关注
12篇博文
  • spark.mllib源码阅读-聚类算法1-KMeans

    KMeans聚类是聚类分析比较简单的一种,由于其简单、高效、易于理解实现等优点被广泛用于探索性数据分析中。 关于KMeans算法的介绍、分析的相关文章可谓汗牛充栋,留给我能写的东西并不多了,在这里,我...

    2017-04-21 15:16
    1759
  • spark.mllib源码阅读-分类算法5-GradientBoostedTrees

    Gradient-Boosted Trees(GBT或者GBDT) 和 RandomForests 都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个base model后表达能力更加丰富。...

    2017-04-19 15:23
    1605
  • spark.mllib源码阅读-分类算法4-DecisionTree

    本篇博文主要围绕Spark上的决策树来讲解,我将分为2部分来阐述这一块的知识。第一部分会介绍一些决策树的基本概念、Spark下决策树的表示与存储、结点分类信息的存储、结点的特征选择与分类;第二部分通过...

    2017-04-11 09:58
    2724
  • spark.mllib源码阅读-bagging方法

    在训练集成分类器时,关键的一步在于如何从全训练样本集中构建子样本集提供给子分类器进行训练。目前主流的两种子样本集构造方式是bagging方法和boosting方法。bagging方法的思想是从全样本集...

    2017-04-05 20:59
    1193
  • spark.mllib源码阅读-分类算法3-SVM

    Spark2.1版本目前只实现了linear SVM(即线性支持向量机),非线性SVM及核技巧目前还没有实现。因此本篇主要介绍的是Spark中的线性SVM及参数求解。SVM的理论及推导可以参考支持向量...

    2017-03-31 13:35
    1432
  • spark.mllib源码阅读-分类算法2-NaiveBayes

    朴素贝叶斯模型简述:贝叶斯模型通过使用后验概率和类的概率分布来估计先验概率,具体的以公式表达为P(Y)可以使用训练样本的类分布进行估计。如果X是单特征也很好估计,但如果X={x1,x2,..,xn}等...

    2017-03-29 17:47
    2543
  • spark.mllib源码阅读-分类算法1-LogisticRegression

    传统的线性回归模型z(x)=wx+b,其输出为负无穷至正无穷的区间,如果输出值为一个事件发生的概率,那么就要求输出区间为[0,1],传统的一些线性回归模型就不能work了,一个很简单的想法就是在z(x...

    2017-03-25 15:20
    1568
  • spark.mllib源码阅读-回归算法2-IsotonicRegression

    IsotonicRegression是Spark1.3版本引入的一个带约束的回归模型。IsotonicRegression又称保序回归,保序回归确保拟合得到一个非递减逼近函数的条件下 最小化均方误差,...

    2017-03-24 13:22
    1202
  • spark.mllib源码阅读-回归算法1-LinearRegression

    Spark实现了三类线性回归方法:1、LinearRegression:普通线性回归模型2、LassoRegression:加L1正则化的线性回归3、RidgeRegression:加L1正则化的线性...

    2017-03-23 10:25
    1373
  • spark.mllib源码阅读-优化算法3-Optimizer

    Spark中的求解器,根据输入的训练数据及设定的迭代次数、正则化项、参数收敛精度等进行迭代求解模型的参数。Spark内部实现来两类求解器,基于随机梯度下降(miniBatch选取样本)的Gradien...

    2017-03-22 16:14
    1396
  • spark.mllib源码阅读-优化算法2-Updater

    Updater是Spark中进行机器学习时对用于更新参数的轮子,参数更新的过程是1、第i轮的机器学习求解得到的参数wi2、第i+1轮计算得到的梯度值3、正则化选项来计算第i+1轮的机器学习要求解的参数...

    2017-03-21 15:11
    1200
  • spark.mllib源码阅读-优化算法1-Gradient

    Spark中定义的损失函数及梯度,在看源码之前,先回顾一下机器学习中定义了哪些损失函数,毕竟梯度求解是为优化求解损失函数服务的。监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入X,由...

    2017-03-20 13:03
    2123
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部