开始:
给定训练集:
T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}
,其中
xi∈x=Rn
,
yi∈y={+1,−1}
,
i=1,2,...,N
定义:
函数间隔
超平面(w,b)关于样本点
(xi,yi)
的函数间隔为:
γi^=yi(w⋅xi+b)
超平面(w,b)关于训练集T的函数间隔为:
γ^=mini=1,...,Nγ^i
增加约束,使||w|| = 1,这时函数间隔称为几何间隔。
几何间隔
超平面(w,b)关于样本点
(xi,yi)
的几何间隔:
γi^=yi(w||w||⋅xi+b||w||)
超平面(w,b)关于训练集T的几何间隔为:
γ^=mini=1,...,Nγ^i
1.线性可分
几何间隔最大化的分离超平面:
w∗⋅x+b∗=0
相应的分类决策函数:
f(x)=sign(w∗⋅x+b)
⟹
转化为优化问题:
maxw,bγ几何
s.t.yi(w||w||⋅xi+b||w||)≥γ,i=1,2,...,N
由几何间隔和函数间隔的关系 ⟹
maxw,bγ函数||w||
s.t. yi(w⋅xi+b)≥γ函数,i=1,2,...,N
可以取 γ^函数=1
⟹
s.t. yi(w⋅xi+b−1)≥0,i=1,2,...,N
就推出了 凸二次规划的形式。
插入知识点:1.凸优化
minwf(w)
s.t.gi(w)≤0,i=1,2,...,k
s.t.hi(w)=0,i=1,2,...,l
其中,目标函数f(w)和约束函数 gi(w) 都是 Rn 上连续可微的凸函数,约束函数 hi(w) 是 Rn 上的仿射函数。
2.拉格朗日对偶性
对于上面的凸优化问题,引入拉格朗日函数:
L(x,α,β)=f(x)+∑i=1kαigi(x)+∑j=1lβjhj(x)
其中 αi,βi 是拉格朗日乘子, αi≥0
设 θp(x)=maxα,β;αi≥0L(x,α,β)
则,若x违反原始问题约束,则可以取 α→+∞ 或者取 β→+∞ ,因此针对这些情况 θp(x) 为正无穷。相反的,若x遵循原始问题的约束,那么无论 α,θ 如何取值,由于乘以0,最后都是0,于是 θp(x)=f(x) 。
于是有⟹
θp(x)={f(x),x满足原始问题约束+∞,其他
minxθp(x)=minxmaxα,β;αj≥0L(x,α,β)
与原问题等价。
原始问题和对偶问题:
maxminL(x,α,β)≤minmaxL(x,α,β)
特别的,对于凸优化问题,等式成立的充要条件是KKT条件。
继续:
根据刚才补充的知识,凸二次问题等价于拉格朗日对偶问题(满足KKT条件)。
L(w,α,β)=12||w||2−∑i=1Nαiyi(w⋅xi+b)+∑i=1Nαi
其中, α=(α1,α2,...,αN)T 是拉格朗日乘子向量。
原始问题: maxminL(x,α,β)
对偶问题: minmaxL(x,α,β)
(1)求 minw,bL(w,b,α)
∂L∂w=w−∑i=1Nαiyixi=0
⟹w=∑i=1Nαiyixi
∂L∂b=∑i=1Nαiyi=0
⟹∑i=1Nαiyi=0
上面两个推论代入,得
L(w,b,α)=12∑i=1N∑j=1Nαiαjyiyj(xi⋅xj)+∑i=1Nαi