Spark MLLIb库是机器学习的框架集合,这里主要研究mllib目录下的各种机器学习模型的实现代码。按照以下顺序依次学习。
线性模型(SGD):LinearRegressionWithSGD
svm模型:SVMWithSGD
推荐算法ALS、SVD:ALS
决策树:
随机森林:RandomForest
Adaboost:
FPgroup:
奇异值分解、特征值和特征向量
SVM的SMO算法??
-
- TFIDF
val sentenceData = spark.createDataFrame(Seq(
(0.0, "Hi Logistic neat heard about Spark"),
(0.0, "I wish Java could use case classes"),
(1.0, "Logistic regression models are neat"))).toDF("label", "sentence")
val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val wordsData = tokenizer.transform(sentenceData)
wordsData.show
val hashingTF = new HashingTF()
.setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)
val featurizedData = hashingTF.transform(wordsData)
println("featurizedData")
featurizedData.foreach(println(_))
// alternatively, CountVectorizer can also be used to get term frequency vectors
val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)
val rescaledData = idfModel.transform(featurizedData)
println("rescaledData")
rescaledData.foreach(println(_))
rescaledData.select("label", "features").show()
- 损失函数(目标函数)
衡量预测值和结果值之间的差异性,常用的损失函数有以下几种:
最小二乘:预测值和结果值的差值平方的均值。
最大似然:log(P(Y|x))
绝对距离:预测值和结果值差值的绝对数的均值
Spark中tree分类下的损失函数:
AbsoluteError:绝对差值
LogLoss:最大似然,用于分类
SquaredError:差值平方
- 优化函数(随机梯度/求导)
Gradient
随机梯度计算出损失函数最小化最快的方向(对损失函数求导),然后乘以学习步长,以此来更新权重向量。直到最终损失函数收敛接近于零。
LogisticGradient :用于多类别分类
LeastSquaresGradient:最小二乘,用于线性回归
HingeGradient:用于SVM