Spark机器学习导论

Spark MLLIb库是机器学习的框架集合,这里主要研究mllib目录下的各种机器学习模型的实现代码。按照以下顺序依次学习。

线性模型(SGD):LinearRegressionWithSGD

svm模型:SVMWithSGD

推荐算法ALS、SVD:ALS

 

决策树:

随机森林:RandomForest

Adaboost:

FPgroup:

奇异值分解、特征值和特征向量

SVM的SMO算法??

 

    1. TFIDF

val sentenceData = spark.createDataFrame(Seq(

      (0.0, "Hi Logistic neat heard about Spark"),

      (0.0, "I wish Java could use case classes"),

      (1.0, "Logistic regression models are neat"))).toDF("label", "sentence")

 

    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")

  

    val wordsData = tokenizer.transform(sentenceData)

    wordsData.show

 

    val hashingTF = new HashingTF()

      .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)

     

  

    val featurizedData = hashingTF.transform(wordsData)

    println("featurizedData")

      featurizedData.foreach(println(_))

    // alternatively, CountVectorizer can also be used to get term frequency vectors

 

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(featurizedData)

 

    val rescaledData = idfModel.transform(featurizedData)

    println("rescaledData")

    rescaledData.foreach(println(_))

    rescaledData.select("label", "features").show()

   

  1. 损失函数(目标函数)

衡量预测值和结果值之间的差异性,常用的损失函数有以下几种:

最小二乘:预测值和结果值的差值平方的均值。

最大似然:logPY|x))

绝对距离:预测值和结果值差值的绝对数的均值

Sparktree分类下的损失函数:

AbsoluteError:绝对差值

LogLoss:最大似然,用于分类

SquaredError:差值平方

 

 

  1. 优化函数(随机梯度/求导)

Gradient

随机梯度计算出损失函数最小化最快的方向(对损失函数求导),然后乘以学习步长,以此来更新权重向量。直到最终损失函数收敛接近于零。

LogisticGradient  :用于多类别分类

LeastSquaresGradient:最小二乘,用于线性回归

HingeGradient:用于SVM

转载于:https://my.oschina.net/u/778683/blog/1831257

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值