智能计算数学基础——分类问题

1、引入问题

给定一组数据: ( x 1 , y 1 ) , . . . , ( x N , y N ) (x_1,y_1),...,(x_N,y_N) (x1,y1)...(xN,yN),其中, x i ∈ R 2 , y i ∈ { ± 1 } x_i\in R^2,y_i\in \left\{ \begin{matrix} \pm1 \end{matrix} \right\} xiR2,yi{±1}
显然,这是点的二分类问题。
在这里插入图片描述
分类方法有很多,I want:将二维点投影到一维,使得同类近,异类远,这是一个idea。
在这里插入图片描述

2、计算投影

将二维空间中的点 x x x投影到过原点的直线。
过原点直线上的每个点都可以表示为: λ w \lambda w λw,其中 w w w表示这条直线上的单位向量,有 ∣ ∣ w ∣ ∣ = 1 , ∣ ∣ w ∣ ∣ 2 = w t w = 1 ||w||=1,||w||^2=w^tw=1 ∣∣w∣∣=1,∣∣w2=wtw=1 λ \lambda λ在变,只有一个变量。
在这里插入图片描述

x x x投影到 λ w \lambda w λw所在直线,如上图所示,所谓投影,向量 v v v垂直于 λ w \lambda w λw所在直线, x = λ w + v x=\lambda w+v x=λw+v
x = λ w + v x=\lambda w+v x=λw+v左右两边同左乘以 w t w^t wt,得: w t x = λ w t w + w t v w^t x=\lambda w^t w+w^t v wtx=λwtw+wtv
由于 w t w = ∣ ∣ w ∣ ∣ 2 = 1 w^tw=||w||^2=1 wtw=∣∣w2=1,向量 v v v垂直于 λ w \lambda w λw所在直线,推导出: λ = w t x \lambda=w^t x λ=wtx
也就是说, x x x w w w方向上作投影,得到了 ( w t x ) w (w^tx)w (wtx)w这个向量,即: x → w 投影 ( w t x ) w x\overset{投影} {\underset{w}\rightarrow}(w^tx)w xw投影(wtx)w
事实上, w w w是个固定的量,相当于 x i x_i xi w t x i w^tx_i wtxi一一对应,即:
x i → w t x i x_i\rightarrow w^tx_i xiwtxi
从而,两类点的对应如下:
1 → { y i = 1 : w t x i } 1\rightarrow \left\{ \begin{matrix} y_i=1:w^tx_i \end{matrix} \right\} 1{yi=1:wtxi}
− 1 → { y i = − 1 : w t x i } -1\rightarrow \left\{ \begin{matrix} y_i=-1:w^tx_i \end{matrix} \right\} 1{yi=1:wtxi}

3、异类远

异类远,应使投影后两类的均值尽可能大,即:
θ 1 = ( ∑ y i = 1 w t x i ) / C 1 = w t ( ∑ y i = 1 x i ) / C 1 = w t μ 1 \theta_{1}=(\displaystyle\sum_{y_i=1}w^tx_i)/C_1=w^t(\displaystyle\sum_{y_i=1}x_i)/C_1=w^t\mu_1 θ1=(yi=1wtxi)/C1=wt(yi=1xi)/C1=wtμ1
θ − 1 = ( ∑ y i = − 1 w t x i ) / C − 1 = w t ( ∑ y i = − 1 x i ) / C − 1 = w t μ − 1 \theta_{-1}=(\displaystyle\sum_{y_i=-1}w^tx_i)/C_{-1}=w^t(\displaystyle\sum_{y_i=-1}x_i)/C_{-1}=w^t\mu_{-1} θ1=(yi=1wtxi)/C1=wt(yi=1xi)/C1=wtμ1
满足: ∣ θ 1 − θ − 1 ∣ |\theta_{1}-\theta_{-1}| θ1θ1尽可能大。
其中, C 1 , C − 1 C_1,C_{-1} C1,C1分别为第一类点和第二类点的个数, μ 1 , μ − 1 \mu_1,\mu_{-1} μ1,μ1分别为第一类点和第二类点的期望。

∣ θ 1 − θ − 1 ∣ 2 = ∣ w t ( μ 1 − μ − 1 ) ∣ 2 = w t ( μ 1 − μ − 1 ) ( w t ( μ 1 − μ − 1 ) ) t = w t ( μ 1 − μ − 1 ) ( μ 1 − μ − 1 ) t w |\theta_{1}-\theta_{-1}|^2=|w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t=w^t(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^tw θ1θ12=wt(μ1μ1)2=wt(μ1μ1)(wt(μ1μ1))t=wt(μ1μ1)(μ1μ1)tw
( μ 1 − μ − 1 ) ( μ 1 − μ − 1 ) t (\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^t (μ1μ1)(μ1μ1)t记作矩阵T,则异类远的问题转化为优化问题:
m a x w t T w (1) max\quad w^tTw\tag{1} maxwtTw(1)

∣ w t ( μ 1 − μ − 1 ) ∣ 2 = w t ( μ 1 − μ − 1 ) ( w t ( μ 1 − μ − 1 ) ) t |w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t wt(μ1μ1)2=wt(μ1μ1)(wt(μ1μ1))t的推导技巧:
w t ( μ 1 − μ − 1 ) w^t(\mu_1-\mu_{-1}) wt(μ1μ1)是一个数,转置后仍是这个数。

4、同类近

同类近,应使投影后每一类的方差尽可能小,即:
∑ y i = 1 ( w t x i − θ 1 ) 2 + ∑ y i = − 1 ( w t x i − θ − 1 ) 2 \displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2+\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2 yi=1(wtxiθ1)2+yi=1(wtxiθ1)2
其中, ∑ y i = 1 ( w t x i − θ 1 ) 2 \displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2 yi=1(wtxiθ1)2 ∑ y i = − 1 ( w t x i − θ − 1 ) 2 \displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2 yi=1(wtxiθ1)2分别为投影后第一类点和第二类点的方差。

∑ y i = 1 ( w t x i − θ 1 ) 2 \displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2 yi=1(wtxiθ1)2
= ∑ y i = 1 ( w t x i − w t μ 1 ) 2 =\displaystyle\sum_{y_i=1}(w^tx_i-w^t\mu_1)^2 =yi=1(wtxiwtμ1)2
= ∑ y i = 1 ( w t ( x i − μ 1 ) ) 2 =\displaystyle\sum_{y_i=1}(w^t(x_i-\mu_1))^2 =yi=1(wt(xiμ1))2
= ∑ y i = 1 w t ( x i − μ 1 ) ( x i − μ 1 ) t w =\displaystyle\sum_{y_i=1}w^t(x_i-\mu_1)(x_i-\mu_1)^tw =yi=1wt(xiμ1)(xiμ1)tw
= w t ( ∑ y i = 1 ( x i − μ 1 ) ( x i − μ 1 ) t ) w =w^t(\displaystyle\sum_{y_i=1}(x_i-\mu_1)(x_i-\mu_1)^t)w =wt(yi=1(xiμ1)(xiμ1)t)w
= w t Σ 1 w =w^t\Sigma_1w =wtΣ1w
同理, ∑ y i = − 1 ( w t x i − θ − 1 ) 2 \displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2 yi=1(wtxiθ1)2= = w t Σ − 1 w =w^t\Sigma_{-1}w =wtΣ1w

( x i − μ 1 ) ( x i − μ 1 ) t (x_i-\mu_1)(x_i-\mu_1)^t (xiμ1)(xiμ1)t为第一类点的协方差矩阵。

所以,同类远的问题转化为了优化问题:

m i n w t Σ 1 w + w t Σ − 1 w min\quad w^t\Sigma_1w+w^t\Sigma_{-1}w minwtΣ1w+wtΣ1w记作:
m i n w t S w (2) min\quad w^tSw\tag{2} minwtSw(2)

5、进一步对问题转化

联立(1)(2),
{ m a x w t T w m i n w t S w (3) \begin{cases} max\quad w^tTw\\ min\quad w^tSw \end{cases} \tag{3} {maxwtTwminwtSw(3)
一个求最大,一个求最小,不好处理,将(3)简化为一个单目标的优化问题:
m a x w w t T w w t S w (4) \underset{w}{max}\frac{w^tTw}{w^tSw}\tag{4} wmaxwtSwwtTw(4)
进一步将(4)转化为标准形式的优化问题:
{ m i n − w t T w s u b j e c t t o w t S w = 1 (5) \begin{cases} min\quad -w^tTw\\ subject \quad to\quad w^tSw=1 \end{cases} \tag{5} {minwtTwsubjecttowtSw=1(5)
这是一个有约束的优化问题。

(4) → \rightarrow (5)为什么可以这么做呢?
因为 w w w是一个达成一定尺度的参数,目标函数不变。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值