Spark机器学习导论

最新推荐文章于 2022-08-17 17:46:18 发布

weixin_34348111

最新推荐文章于 2022-08-17 17:46:18 发布

阅读量83

点赞数

文章标签：大数据人工智能 python

原文链接：https://my.oschina.net/u/778683/blog/1831257

版权

2019独角兽企业重金招聘Python工程师标准>>>

Spark MLLIb库是机器学习的框架集合，这里主要研究mllib目录下的各种机器学习模型的实现代码。按照以下顺序依次学习。

线性模型（SGD）：LinearRegressionWithSGD

svm模型：SVMWithSGD

推荐算法ALS、SVD：ALS

决策树：

随机森林：RandomForest

Adaboost：

FPgroup：

奇异值分解、特征值和特征向量

SVM的SMO算法？？

1. TFIDF

val sentenceData = spark.createDataFrame(Seq(

(0.0, "Hi Logistic neat heard about Spark"),

(0.0, "I wish Java could use case classes"),

(1.0, "Logistic regression models are neat"))).toDF("label", "sentence")

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")

val wordsData = tokenizer.transform(sentenceData)

wordsData.show

val hashingTF = new HashingTF()

.setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)

val featurizedData = hashingTF.transform(wordsData)

println("featurizedData")

featurizedData.foreach(println(_))

// alternatively, CountVectorizer can also be used to get term frequency vectors

val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

val idfModel = idf.fit(featurizedData)

val rescaledData = idfModel.transform(featurizedData)

println("rescaledData")

rescaledData.foreach(println(_))

rescaledData.select("label", "features").show()

损失函数（目标函数）

衡量预测值和结果值之间的差异性，常用的损失函数有以下几种：

最小二乘：预测值和结果值的差值平方的均值。

最大似然：log（P（Y|x））

绝对距离：预测值和结果值差值的绝对数的均值

Spark中tree分类下的损失函数：

AbsoluteError：绝对差值

LogLoss：最大似然，用于分类

SquaredError：差值平方

优化函数（随机梯度/求导）

Gradient

随机梯度计算出损失函数最小化最快的方向（对损失函数求导），然后乘以学习步长，以此来更新权重向量。直到最终损失函数收敛接近于零。

LogisticGradient ：用于多类别分类

LeastSquaresGradient：最小二乘，用于线性回归

HingeGradient：用于SVM

转载于:https://my.oschina.net/u/778683/blog/1831257

weixin_34348111

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark机器学习导论

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。