记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
6.2 对偶问题
支持向量机的基本型:
他转换成对偶问题算一个标准问题(数学细节解释在附录)。
首先转换成数学的标准写法,即
1
−
y
i
(
w
T
x
i
+
b
)
≤
0
1-y_i(w^Tx_i+b)\le0
1−yi(wTxi+b)≤0;由于拉格朗日乘子法要求约束是等于0,而我们这里是小于等于0,因此只是利用类似的方式,给出一个拉格朗日函数。
同样求偏导,类似于之前的拉格朗日乘子法中的求偏导,并让偏导等于0(相当于一个中间结果)。
代入,注意
∑
\sum
∑里面的下标,改成j是为了便于区分,其实只要注意是一个
∑
\sum
∑的即可:
L
=
1
2
∣
∣
w
∣
∣
2
+
∑
i
=
1
m
a
i
(
1
−
y
i
(
w
T
x
i
+
b
)
)
=
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
(
1
−
y
i
(
(
∑
a
j
y
j
x
j
)
T
x
i
+
b
)
)
=
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
−
∑
a
i
y
i
(
∑
a
j
y
j
x
j
)
T
x
i
+
∑
a
i
y
i
b
=
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
−
(
∑
a
i
y
i
x
i
)
T
(
∑
a
j
y
j
x
j
)
=
−
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
=
∑
a
i
−
1
2
∑
i
∑
j
a
i
a
j
y
i
y
j
x
i
T
x
j
\begin{aligned} L &=\dfrac{1}{2}||w||^2+\sum_{i=1}^m a_i(1-y_i(w^Tx_i+b))\\ &=\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i(1-y_i((\sum a_j y_j x_j)^T x_i +b))\\ &=\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i-\sum a_i y_i(\sum a_j y_j x_j)^T x_i +\sum a_i y_ib\\ &=\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i-(\sum a_iy_ix_i)^T(\sum a_jy_jx_j)\\ &=-\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i\\ &=\sum a_i-\dfrac{1}{2}\sum_i \sum_j a_ia_jy_iy_jx_i^Tx_j \end{aligned}
L=21∣∣w∣∣2+i=1∑mai(1−yi(wTxi+b))=21(∑aiyixi)T(∑aiyixi)+∑ai(1−yi((∑ajyjxj)Txi+b))=21(∑aiyixi)T(∑aiyixi)+∑ai−∑aiyi(∑ajyjxj)Txi+∑aiyib=21(∑aiyixi)T(∑aiyixi)+∑ai−(∑aiyixi)T(∑ajyjxj)=−21(∑aiyixi)T(∑aiyixi)+∑ai=∑ai−21i∑j∑aiajyiyjxiTxj
根据附录B.1拉格朗日乘子法,可以解释KKT条件和为什么之前都是求极小,到公式(6.11)变成max了。
核函数是用
ϕ
(
x
)
\phi(x)
ϕ(x)这样类似一个非线性变化替换
x
x
x;软间隔是允许某些样本不满足约束,引入损失函数;6.5节化分类为回归。
6.6 核方法
关于(6.59)到(6.64):
首先是核函数的参数
α
\alpha
α,我们可以写成列向量的形式,
α
=
[
α
1
,
α
2
,
.
.
.
,
α
m
]
T
\alpha=[\alpha_1,\alpha_2,...,\alpha_m]^T
α=[α1,α2,...,αm]T;核函数在书中写了是
ϕ
(
x
i
)
T
ϕ
(
x
)
\phi(x_i)^T\phi(x)
ϕ(xi)Tϕ(x)。把带有
x
i
x_i
xi的两项合起来,也就是书中公式(6.65),
w
=
∑
i
=
1
m
α
i
ϕ
(
x
i
)
w=\sum_{i=1}^m\alpha_i\phi(x_i)
w=∑i=1mαiϕ(xi)。若
Φ
=
[
ϕ
(
x
1
)
,
ϕ
(
x
2
)
,
.
.
.
,
ϕ
(
x
m
)
]
T
\Phi=[\phi(x_1),\phi(x_2),...,\phi(x_m)]^T
Φ=[ϕ(x1),ϕ(x2),...,ϕ(xm)]T,则
w
=
α
Φ
T
w=\alpha\Phi^T
w=αΦT。
α
\alpha
α组成的列向量每一个元素都是第
i
i
i个核函数的系数,因此是个
m
m
m行1列的列向量;而
Φ
\Phi
Φ里面的
ϕ
(
x
i
)
\phi(x_i)
ϕ(xi)对于每个样本点变换后特征不确定,可以先定为有
d
d
d个不同的特征。那么
w
w
w是
d
∗
1
d*1
d∗1的特征。那么(6.60)可以写为:
m
a
x
α
J
(
w
)
=
w
T
S
b
ϕ
w
w
T
S
w
ϕ
w
=
α
T
Φ
S
B
ϕ
Φ
T
α
α
T
Φ
S
w
ϕ
Φ
T
α
max_\alpha J(w)=\dfrac{w^TS_b^\phi w}{w^TS_w^\phi w}=\dfrac{\alpha^T\Phi S_B^\phi\Phi^T\alpha}{\alpha^T\Phi S_w^\phi\Phi^T\alpha}
maxαJ(w)=wTSwϕwwTSbϕw=αTΦSwϕΦTααTΦSBϕΦTα
我们希望公式最后写成跟
α
\alpha
α有关的形式,业技术公式(6.70)。推导详细过程如下:首先是分子
α
T
M
α
\alpha^TM\alpha
αTMα的来源,根据(6.60),分子应该是
w
T
S
b
ϕ
w
w^TS_b^\phi w
wTSbϕw,那么先代入展开:。
w
T
S
b
ϕ
w
=
α
T
Φ
(
μ
1
ϕ
−
μ
0
ϕ
)
(
μ
1
ϕ
−
μ
0
ϕ
)
T
Φ
T
α
w^TS_b^\phi w=\alpha^T \Phi(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T \Phi^T \alpha\\
wTSbϕw=αTΦ(μ1ϕ−μ0ϕ)(μ1ϕ−μ0ϕ)TΦTα
把经过非线性变换后的中心点进行处理:
μ
1
ϕ
=
1
m
1
∑
x
∈
X
1
ϕ
(
x
)
=
1
m
1
(
∑
x
∈
X
1
ϕ
(
x
)
∗
1
+
∑
x
∈
X
0
ϕ
(
x
)
∗
0
)
=
1
m
1
∑
x
∈
A
l
l
ϕ
(
x
i
)
∗
l
l
i
=
1
m
1
Φ
T
l
1
\begin{aligned} \mu_1^\phi &= \dfrac{1}{m_1} \sum_{x \in X_1} \phi(x)\\ &= \dfrac{1}{m_1}( \sum_{x \in X_1} \phi(x)*1+ \sum_{x \in X_0} \phi(x)*0)\\ &=\dfrac{1}{m_1} \sum_{x \in All}\phi(x_i)*l_{li}\\ &=\dfrac{1}{m_1} \Phi^T l_1 \end{aligned}
μ1ϕ=m11x∈X1∑ϕ(x)=m11(x∈X1∑ϕ(x)∗1+x∈X0∑ϕ(x)∗0)=m11x∈All∑ϕ(xi)∗lli=m11ΦTl1
因此,结合公式(6.66)和公式(6.68),可得:
w
T
S
b
ϕ
w
=
α
T
Φ
(
μ
1
ϕ
−
μ
0
ϕ
)
(
μ
1
ϕ
−
μ
0
ϕ
)
T
Φ
T
α
=
α
T
Φ
Φ
T
(
l
1
m
1
−
l
0
m
0
)
(
l
1
m
1
−
l
0
m
0
)
T
(
Φ
Φ
T
)
T
α
=
α
T
K
(
l
1
m
1
−
l
0
m
0
)
(
l
1
m
1
−
l
0
m
0
)
T
K
T
α
=
α
T
(
μ
0
ˉ
−
μ
1
ˉ
)
(
μ
0
ˉ
−
μ
1
ˉ
)
T
α
=
α
T
M
α
\begin{aligned} w^TS_b^\phi w &=\alpha^T \Phi(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T \Phi^T \alpha\\ &=\alpha^T \Phi \Phi^T (\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})(\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})^T (\Phi \Phi^T)^T \alpha\\ &=\alpha^TK(\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})(\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})^T K^T \alpha\\ &=\alpha^T(\bar{\mu_0}-\bar{\mu_1})(\bar{\mu_0}-\bar{\mu_1})^T \alpha\\ &=\alpha^TM\alpha \end{aligned}
wTSbϕw=αTΦ(μ1ϕ−μ0ϕ)(μ1ϕ−μ0ϕ)TΦTα=αTΦΦT(m1l1−m0l0)(m1l1−m0l0)T(ΦΦT)Tα=αTK(m1l1−m0l0)(m1l1−m0l0)TKTα=αT(μ0ˉ−μ1ˉ)(μ0ˉ−μ1ˉ)Tα=αTMα