根据前文对SVM算法的推导,可以给出样本点的预测值:
s
i
g
n
(
∑
i
=
1
n
α
i
y
i
K
(
x
i
,
x
)
+
b
)
sign(\sum\limits_{i=1}^n \alpha_iy_iK(x_i,x)+b)
sign(i=1∑nαiyiK(xi,x)+b)但一些情况下,我们不仅希望模型能输出表示分类的符号,也希望能得到某个分类的置信概率,正如逻辑回归得到的
P
(
y
∣
x
)
=
1
1
+
e
−
(
w
x
+
b
)
P(y|x)=\frac{1}{1+e^{-(wx+b)}}
P(y∣x)=1+e−(wx+b)1一样。那么如何基于SVM给出分类的概率值呢?
一、方案一:SVM+LR的混合模型
一种显而易见的方案是将SVM模型的函数距离输出值作为输入,喂给LR模型进行训练。这种做法类似于两层模型之间的blending。
在SVM模型中,可以通过引入核技巧隐式构造非线性特征,从而使得下一层的LR模型也能学习到这些信息。
二、方案二:核逻辑回归模型
在SVM算法的正则化损失函数视角中提到了线性模型
L
2
L2
L2正则化的泛化:
min
λ
w
2
+
∑
i
=
1
n
e
r
r
(
y
i
,
g
(
w
x
i
)
)
\min \lambda w^2+\sum_{i=1}^nerr(y_i,g(wx_i))
minλw2+i=1∑nerr(yi,g(wxi))
可以证明其最优解
w
∗
w^*
w∗必然可以表示成样本点特征的线性组合,即
w
∗
=
∑
i
=
1
n
β
i
x
i
w^*=\sum^{n}_{i=1}\beta_ix_i
w∗=i=1∑nβixi代入目标函数,可得:
min
λ
w
2
+
∑
i
=
1
n
e
r
r
(
y
i
,
g
(
∑
j
=
1
n
β
i
(
x
i
∗
x
j
)
)
)
\min \lambda w^2+\sum_{i=1}^nerr(y_i,g(\sum^{n}_{j=1}\beta_i(x_i*x_j)))
minλw2+i=1∑nerr(yi,g(j=1∑nβi(xi∗xj)))回忆下在SVM算法(三)核技巧中论述的,引入核技巧的关键在于目标函数中出现了样本特征间的内积,而上式中满足这个要求,也就意味着线性模型
L
2
L2
L2正则化中可以引入核技巧!
应用到逻辑回归中,其目标函数为: min λ N w 2 + 1 N ∑ i = 1 N y i l o g ( 1 + e 1 − y i w x i ) \min \frac{\lambda}{N} w^2+\frac{1}{N}\sum_{i=1}^N y_ilog(1+e^{1-y_iwx_i}) minNλw2+N1i=1∑Nyilog(1+e1−yiwxi)若将 w w w表示为特征线性组合的形式,即: w = ∑ i = 1 N β i x i w=\sum_{i=1}^N\beta_ix_i w=i=1∑Nβixi则目标函数可改写为: min β λ N ∑ i N ∑ j N β i β j x i x j + 1 N ∑ i N y i l o g ( 1 + e 1 − y i ∑ j = 1 N β j x j x i ) \min_\beta\frac{\lambda}{N}\sum_i^N\sum_j^N\beta_i\beta_jx_ix_j+\frac{1}{N}\sum_i^Ny_ilog(1+e^{1-y_i\sum\limits_{j=1}^N\beta_jx_jx_i}) βminNλi∑Nj∑Nβiβjxixj+N1i∑Nyilog(1+e1−yij=1∑Nβjxjxi)引入核函数,可得到完整的核逻辑回归问题的目标函数: min β λ N ∑ i N ∑ j N β i β j K ( x i , x j ) + 1 N ∑ i N y i l o g ( 1 + e 1 − y i ∑ j = 1 N β j K ( x j , x i ) ) \min_\beta\frac{\lambda}{N}\sum_i^N\sum_j^N\beta_i\beta_jK(x_i,x_j)+\frac{1}{N}\sum_i^Ny_ilog(1+e^{1-y_i\sum\limits_{j=1}^N\beta_jK(x_j,x_i)}) βminNλi∑Nj∑NβiβjK(xi,xj)+N1i∑Nyilog(1+e1−yij=1∑NβjK(xj,xi))这是个无约束的二次规划问题,可通过梯度下降的方法求解。
三、小结
基于SVM模型(更准确的说,是联合逻辑回归模型),可以两种方式实现的分类概率输出。
方案一:通过“SVM+LR”进行blending的方式,在SVM模型中引入核技巧考虑非线性空间特征转换,模型终端输出分类概率。
方案二:直接在逻辑回归中引入核技巧,从而使得逻辑回归模型能够考虑非线性空间特征转换的同时,输出分类概率。