1、引入问题
给定一组数据:
(
x
1
,
y
1
)
,
.
.
.
,
(
x
N
,
y
N
)
(x_1,y_1),...,(x_N,y_N)
(x1,y1),...,(xN,yN),其中,
x
i
∈
R
2
,
y
i
∈
{
±
1
}
x_i\in R^2,y_i\in \left\{ \begin{matrix} \pm1 \end{matrix} \right\}
xi∈R2,yi∈{±1}。
显然,这是点的二分类问题。
分类方法有很多,I want:将二维点投影到一维,使得同类近,异类远,这是一个idea。
2、计算投影
将二维空间中的点
x
x
x投影到过原点的直线。
过原点直线上的每个点都可以表示为:
λ
w
\lambda w
λw,其中
w
w
w表示这条直线上的单位向量,有
∣
∣
w
∣
∣
=
1
,
∣
∣
w
∣
∣
2
=
w
t
w
=
1
||w||=1,||w||^2=w^tw=1
∣∣w∣∣=1,∣∣w∣∣2=wtw=1,
λ
\lambda
λ在变,只有一个变量。
将
x
x
x投影到
λ
w
\lambda w
λw所在直线,如上图所示,所谓投影,向量
v
v
v垂直于
λ
w
\lambda w
λw所在直线,
x
=
λ
w
+
v
x=\lambda w+v
x=λw+v。
将
x
=
λ
w
+
v
x=\lambda w+v
x=λw+v左右两边同左乘以
w
t
w^t
wt,得:
w
t
x
=
λ
w
t
w
+
w
t
v
w^t x=\lambda w^t w+w^t v
wtx=λwtw+wtv
由于
w
t
w
=
∣
∣
w
∣
∣
2
=
1
w^tw=||w||^2=1
wtw=∣∣w∣∣2=1,向量
v
v
v垂直于
λ
w
\lambda w
λw所在直线,推导出:
λ
=
w
t
x
\lambda=w^t x
λ=wtx
也就是说,
x
x
x往
w
w
w方向上作投影,得到了
(
w
t
x
)
w
(w^tx)w
(wtx)w这个向量,即:
x
→
w
投影
(
w
t
x
)
w
x\overset{投影} {\underset{w}\rightarrow}(w^tx)w
xw→投影(wtx)w
事实上,
w
w
w是个固定的量,相当于
x
i
x_i
xi和
w
t
x
i
w^tx_i
wtxi一一对应,即:
x
i
→
w
t
x
i
x_i\rightarrow w^tx_i
xi→wtxi
从而,两类点的对应如下:
1
→
{
y
i
=
1
:
w
t
x
i
}
1\rightarrow \left\{ \begin{matrix} y_i=1:w^tx_i \end{matrix} \right\}
1→{yi=1:wtxi}
−
1
→
{
y
i
=
−
1
:
w
t
x
i
}
-1\rightarrow \left\{ \begin{matrix} y_i=-1:w^tx_i \end{matrix} \right\}
−1→{yi=−1:wtxi}
3、异类远
异类远,应使投影后两类的均值尽可能大,即:
θ
1
=
(
∑
y
i
=
1
w
t
x
i
)
/
C
1
=
w
t
(
∑
y
i
=
1
x
i
)
/
C
1
=
w
t
μ
1
\theta_{1}=(\displaystyle\sum_{y_i=1}w^tx_i)/C_1=w^t(\displaystyle\sum_{y_i=1}x_i)/C_1=w^t\mu_1
θ1=(yi=1∑wtxi)/C1=wt(yi=1∑xi)/C1=wtμ1
θ
−
1
=
(
∑
y
i
=
−
1
w
t
x
i
)
/
C
−
1
=
w
t
(
∑
y
i
=
−
1
x
i
)
/
C
−
1
=
w
t
μ
−
1
\theta_{-1}=(\displaystyle\sum_{y_i=-1}w^tx_i)/C_{-1}=w^t(\displaystyle\sum_{y_i=-1}x_i)/C_{-1}=w^t\mu_{-1}
θ−1=(yi=−1∑wtxi)/C−1=wt(yi=−1∑xi)/C−1=wtμ−1
满足:
∣
θ
1
−
θ
−
1
∣
|\theta_{1}-\theta_{-1}|
∣θ1−θ−1∣尽可能大。
其中,
C
1
,
C
−
1
C_1,C_{-1}
C1,C−1分别为第一类点和第二类点的个数,
μ
1
,
μ
−
1
\mu_1,\mu_{-1}
μ1,μ−1分别为第一类点和第二类点的期望。
∣
θ
1
−
θ
−
1
∣
2
=
∣
w
t
(
μ
1
−
μ
−
1
)
∣
2
=
w
t
(
μ
1
−
μ
−
1
)
(
w
t
(
μ
1
−
μ
−
1
)
)
t
=
w
t
(
μ
1
−
μ
−
1
)
(
μ
1
−
μ
−
1
)
t
w
|\theta_{1}-\theta_{-1}|^2=|w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t=w^t(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^tw
∣θ1−θ−1∣2=∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t=wt(μ1−μ−1)(μ1−μ−1)tw
将
(
μ
1
−
μ
−
1
)
(
μ
1
−
μ
−
1
)
t
(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^t
(μ1−μ−1)(μ1−μ−1)t记作矩阵T,则异类远的问题转化为优化问题:
m
a
x
w
t
T
w
(1)
max\quad w^tTw\tag{1}
maxwtTw(1)
∣ w t ( μ 1 − μ − 1 ) ∣ 2 = w t ( μ 1 − μ − 1 ) ( w t ( μ 1 − μ − 1 ) ) t |w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t ∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t的推导技巧:
w t ( μ 1 − μ − 1 ) w^t(\mu_1-\mu_{-1}) wt(μ1−μ−1)是一个数,转置后仍是这个数。
4、同类近
同类近,应使投影后每一类的方差尽可能小,即:
∑
y
i
=
1
(
w
t
x
i
−
θ
1
)
2
+
∑
y
i
=
−
1
(
w
t
x
i
−
θ
−
1
)
2
\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2+\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2
yi=1∑(wtxi−θ1)2+yi=−1∑(wtxi−θ−1)2
其中,
∑
y
i
=
1
(
w
t
x
i
−
θ
1
)
2
\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2
yi=1∑(wtxi−θ1)2和
∑
y
i
=
−
1
(
w
t
x
i
−
θ
−
1
)
2
\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2
yi=−1∑(wtxi−θ−1)2分别为投影后第一类点和第二类点的方差。
∑
y
i
=
1
(
w
t
x
i
−
θ
1
)
2
\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2
yi=1∑(wtxi−θ1)2
=
∑
y
i
=
1
(
w
t
x
i
−
w
t
μ
1
)
2
=\displaystyle\sum_{y_i=1}(w^tx_i-w^t\mu_1)^2
=yi=1∑(wtxi−wtμ1)2
=
∑
y
i
=
1
(
w
t
(
x
i
−
μ
1
)
)
2
=\displaystyle\sum_{y_i=1}(w^t(x_i-\mu_1))^2
=yi=1∑(wt(xi−μ1))2
=
∑
y
i
=
1
w
t
(
x
i
−
μ
1
)
(
x
i
−
μ
1
)
t
w
=\displaystyle\sum_{y_i=1}w^t(x_i-\mu_1)(x_i-\mu_1)^tw
=yi=1∑wt(xi−μ1)(xi−μ1)tw
=
w
t
(
∑
y
i
=
1
(
x
i
−
μ
1
)
(
x
i
−
μ
1
)
t
)
w
=w^t(\displaystyle\sum_{y_i=1}(x_i-\mu_1)(x_i-\mu_1)^t)w
=wt(yi=1∑(xi−μ1)(xi−μ1)t)w
=
w
t
Σ
1
w
=w^t\Sigma_1w
=wtΣ1w
同理,
∑
y
i
=
−
1
(
w
t
x
i
−
θ
−
1
)
2
\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2
yi=−1∑(wtxi−θ−1)2=
=
w
t
Σ
−
1
w
=w^t\Sigma_{-1}w
=wtΣ−1w
所以,同类远的问题转化为了优化问题:( x i − μ 1 ) ( x i − μ 1 ) t (x_i-\mu_1)(x_i-\mu_1)^t (xi−μ1)(xi−μ1)t为第一类点的协方差矩阵。
m
i
n
w
t
Σ
1
w
+
w
t
Σ
−
1
w
min\quad w^t\Sigma_1w+w^t\Sigma_{-1}w
minwtΣ1w+wtΣ−1w记作:
m
i
n
w
t
S
w
(2)
min\quad w^tSw\tag{2}
minwtSw(2)
5、进一步对问题转化
联立(1)(2),
{
m
a
x
w
t
T
w
m
i
n
w
t
S
w
(3)
\begin{cases} max\quad w^tTw\\ min\quad w^tSw \end{cases} \tag{3}
{maxwtTwminwtSw(3)
一个求最大,一个求最小,不好处理,将(3)简化为一个单目标的优化问题:
m
a
x
w
w
t
T
w
w
t
S
w
(4)
\underset{w}{max}\frac{w^tTw}{w^tSw}\tag{4}
wmaxwtSwwtTw(4)
进一步将(4)转化为标准形式的优化问题:
{
m
i
n
−
w
t
T
w
s
u
b
j
e
c
t
t
o
w
t
S
w
=
1
(5)
\begin{cases} min\quad -w^tTw\\ subject \quad to\quad w^tSw=1 \end{cases} \tag{5}
{min−wtTwsubjecttowtSw=1(5)
这是一个有约束的优化问题。
(4) → \rightarrow →(5)为什么可以这么做呢?
因为 w w w是一个达成一定尺度的参数,目标函数不变。