注:MLlib中的SVM只实现了线性二分类。没有非线性(核函数),也没有多分类和回归。线性二分类的优化过程类似于逻辑回归。以下从三个方面进行分析:(一)SVM的目标函数、损失函数和最优化方法。(二)从MLlib实现的源码分析模型创建以及优化的过程。(三)参考ML中NaiveBayes的实现,探索SVM-Pipeline的实现思路。
一、SVM 公式
1.1 目标函数
目标函数:** y = wx **
(注:w是超平面的法向量)
1.2 损失函数
损失函数:HingeGradient
公式:** avg( max(0, 1 - (2 y - 1) f_w(x))) )**
(注:0 1分类label,在svm中要转为 -1,1
1.3 优化函数(随机梯度下降)
梯度:** -(2y - 1) * x **
正则项:** L2 = (1/2) * w^2 **
梯度更新方法:** weight = weight - lambda (gradient + regParam * weight) **
二、MLlib源码实现分析
下图是SVMWithSGD的类图,SVMWithSGD继承了GeneralizdLinearAlgorithm。run()方法会调用optimitor:GradientDescent(gradient, updater)优化得到模型的权值参数weights,并调用createModel(weights)方法new一个SVMModel,返回SVMModel。