PRML学习总结(7)——Sparse Kernel Machines


在前⼀章中,我们研究了许多基于⾮线性核的学习算法。这种算法的⼀个最⼤的局限性是核函数 k ( x n , x m ) k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) k(xn,xm)必须对所有可能的训练点对 x n \mathbf{x}_{n} xn x m \mathbf{x}_{m} xm进⾏求值,这在训练阶段的计算上是不可⾏的,并且会使得对新的数据点进⾏预测时也会花费过多的时间。本章中,我们会看到具有稀疏(sparse)解的基于核的算法,从⽽对新数据的预测只依赖于在训练数据点的⼀个⼦集上计算的核函数。

7.1 Maximum Margin Classifiers

首先考虑二分类问题, y ( x ) = w T ϕ ( x ) + b y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b y(x)=wTϕ(x)+b我们认为数据是线性可分的,即存在参数 w \mathbf w w b b b使得能够使得数据集正确可分。之前在第四章学习感知器的时候就发现,对于可分的参数有很多,我们需要找到最优的一组解。SVM则定义了一个margin,通过最大化margin进而求解到最优的参数。且这个优化问题是一个凸优化问题,能够求解到唯一最值点。
在可分的情况下,有 t n y ( x n ) > 0 t_{n} y\left(\mathbf{x}_{n}\right)>0 tny(xn)>0,那么数据集中某个点 x n \mathbf x_n xn到决策面的距离为 t n y ( x n ) ∥ w ∥ = t n ( w T ϕ ( x n ) + b ) ∥ w ∥ \frac{t_{n} y\left(\mathbf{x}_{n}\right)}{\|\mathbf{w}\|}=\frac{t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)}{\|\mathbf{w}\|} wtny(xn)=wtn(wTϕ(xn)+b)margin就是在数据集中使得上式最小的距离,我们的目标是最大化这个距离 arg ⁡ max ⁡ w , b { 1 ∥ w ∥ min ⁡ n [ t n ( w T ϕ ( x n ) + b ) ] } \underset{\mathbf{w}, b}{\arg \max }\left\{\frac{1}{\|\mathbf{w}\|} \min _{n}\left[t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)\right]\right\} w,bargmax{w1nmin[tn(wTϕ(xn)+b)]}直接优化比较存在困难,那么可以将其转化为等价形式。当我们 w → κ w \mathbf{w} \rightarrow \kappa \mathbf{w} wκw and b → κ b b \rightarrow \kappa b bκb时,目标值 t n y ( x n ) / ∥ w ∥ t_{n} y\left(\mathbf{x}_{n}\right) /\|\mathbf{w}\| tny(xn)/w将不会变化,因此我们可以对离决策面最近的一个点设定一个约束 t n ( w T ϕ ( x n ) + b ) = 1 t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)=1 tn(wTϕ(xn)+b)=1这样一来,所有点 t n ( w T ϕ ( x n ) + b ) ⩾ 1 , n = 1 , … , N t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant 1, \quad n=1, \ldots, N tn(wTϕ(xn)+b)1,n=1,,N对于以上约束,至少有一个点使得等号成立,那么原优化问题就等价为 arg ⁡ min ⁡ w , b 1 2 ∥ w ∥ 2 \underset{\mathbf{w}, b}{\arg \min } \frac{1}{2}\|\mathbf{w}\|^{2} w,bargmin21w2其约束条件如上。求解该优化问题,引入拉格朗日乘子 L ( w , b , a ) = 1 2 ∥ w ∥ 2 − ∑ n = 1 N a n { t n ( w T ϕ ( x n ) + b ) − 1 } L(\mathbf{w}, b, \mathbf{a})=\frac{1}{2}\|\mathbf{w}\|^{2}-\sum_{n=1}^{N} a_{n}\left\{t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)-1\right\} L(w,b,a)=21w2n=1Nan{tn(wTϕ(xn)+b)1}目标为最小化 w \mathbf w w b b b,最大化 a n a_n an,利用求导梯度为0 w = ∑ n = 1 N a n t n ϕ ( x n ) 0 = ∑ n = 1 N a n t n \begin{aligned} \mathbf{w} &=\sum_{n=1}^{N} a_{n} t_{n} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right) \\ 0 &=\sum_{n=1}^{N} a_{n} t_{n} \end{aligned} w0=n=1Nantnϕ(xn)=n=1Nantn代入原式 L ~ ( a ) = ∑ n = 1 N a n − 1 2 ∑ n = 1 N ∑ m = 1 N a n a m t n t m k ( x n , x m ) \widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) L (a)=n=1Nan21n=1Nm=1Nanamtntmk(xn,xm)约束条件为 a n ⩾ 0 , n = 1 , … , N ∑ n = 1 N a n t n = 0 \begin{aligned} a_{n} & \geqslant 0, \quad n=1, \ldots, N \\ \sum_{n=1}^{N} a_{n} t_{n} &=0 \end{aligned} ann=1Nantn0,n=1,,N=0
在这里插入图片描述
对于新来的数据点 x \mathbf x x y ( x ) = ∑ n = 1 N a n t n k ( x , x n ) + b y(\mathbf{x})=\sum_{n=1}^{N} a_{n} t_{n} k\left(\mathbf{x}, \mathbf{x}_{n}\right)+b y(x)=n=1Nantnk(x,xn)+b在转化为对偶问题时,KKT条件 a n ⩾ 0 t n y ( x n ) − 1 ⩾ 0 a n { t n y ( x n ) − 1 } = 0 \begin{aligned} a_{n} & \geqslant 0 \\ t_{n} y\left(\mathbf{x}_{n}\right)-1 & \geqslant 0 \\ a_{n}\left\{t_{n} y\left(\mathbf{x}_{n}\right)-1\right\} &=0 \end{aligned} antny(xn)1an{tny(xn)1}00=0成立。那么对于每个数据点 a n = 0 a_{n}=0 an=0 or t n y ( x n ) = 1 t_{n} y\left(\mathbf{x}_{n}\right)=1 tny(xn)=1,对于 a n a_n an非零的点就是支持向量点。决定着之后的预测!对于参数 b b b,可以利用支持向量决定 t n ( ∑ m ∈ S a m t m k ( x n , x m ) + b ) = 1 t_{n}\left(\sum_{m \in \mathcal{S}} a_{m} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)+b\right)=1 tn(mSamtmk(xn,xm)+b)=1我们可以用其中一个支持向量计算参数 b b b,为了训练稳定,可以将所有的 b b b平均下。 b = 1 N S ∑ n ∈ S ( t n − ∑ m ∈ S a m t m k ( x n , x m ) ) b=\frac{1}{N_{\mathcal{S}}} \sum_{n \in \mathcal{S}}\left(t_{n}-\sum_{m \in \mathcal{S}} a_{m} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)\right) b=NS1nS(tnmSamtmk(xn,xm))
在这里插入图片描述
在这里插入图片描述

7.1.1 Overlapping class distributions

到目前为止所考虑的都是可分的情况,对于不可分的情况,我们可以通过对每个训练数据引入松弛变量 ξ n ⩾ 0 \xi_{n} \geqslant 0 ξn0来解决。具体地,对于正确分类(大于margin)的 ξ n = 0 \xi_{n}=0 ξn=0,而错误分类的 ξ n = ∣ t n − y ( x n ) ∣ \xi_{n}=\left|t_{n}-y\left(\mathbf{x}_{n}\right)\right| ξn=tny(xn)
在这里插入图片描述
之前的约束 t n y ( x n ) − 1 ⩾ 0 t_{n} y\left(\mathbf{x}_{n}\right)-1 \geqslant 0 tny(xn)10改为 t n y ( x n ) ⩾ 1 − ξ n , n = 1 , … , N t_{n} y\left(\mathbf{x}_{n}\right) \geqslant 1-\xi_{n}, \quad n=1, \ldots, N tny(xn)1ξn,n=1,,N则目标变为了,最小化 C ∑ n = 1 N ξ n + 1 2 ∥ w ∥ 2 C \sum_{n=1}^{N} \xi_{n}+\frac{1}{2}\|\mathbf{w}\|^{2} Cn=1Nξn+21w2显然当 C → ∞ C \rightarrow \infty C时,就等价为之前可分的情况。优化上式同样采用拉格朗日乘子 L ( w , b , a ) = 1 2 ∥ w ∥ 2 + C ∑ n = 1 N ξ n − ∑ n = 1 N a n { t n y ( x n ) − 1 + ξ n } − ∑ n = 1 N μ n ξ n L(\mathbf{w}, b, \mathbf{a})=\frac{1}{2}\|\mathbf{w}\|^{2}+C \sum_{n=1}^{N} \xi_{n}-\sum_{n=1}^{N} a_{n}\left\{t_{n} y\left(\mathbf{x}_{n}\right)-1+\xi_{n}\right\}-\sum_{n=1}^{N} \mu_{n} \xi_{n} L(w,b,a)=21w2+Cn=1Nξnn=1Nan{tny(xn)1+ξn}n=1Nμnξnwhere { a n ⩾ 0 } \left\{a_{n} \geqslant 0\right\} {an0} and { μ n ⩾ 0 } \left\{\mu_{n} \geqslant 0\right\} {μn0}同样得到KKT条件 a n ⩾ 0 t n y ( x n ) − 1 + ξ n ⩾ 0 a n ( t n y ( x n ) − 1 + ξ n ) = 0 μ n ⩾ 0 ξ n ⩾ 0 μ n ξ n = 0 \begin{array}{r}{a_{n} \geqslant 0} \\ {\qquad \begin{aligned} t_{n} y\left(\mathbf{x}_{n}\right)-1+\xi_{n} &amp; \geqslant 0 \\ a_{n}\left(t_{n} y\left(\mathbf{x}_{n}\right)-1+\xi_{n}\right) &amp;=0 \\ \mu_{n} &amp; \geqslant 0 \\ \xi_{n} &amp; \geqslant 0 \\ \mu_{n} \xi_{n} &amp;=0 \end{aligned}}\end{array} an0tny(xn)1+ξnan(tny(xn)1+ξn)μnξnμnξn0=000=0 ∂ L ∂ w = 0 ⇒ w = ∑ n = 1 N a n t n ϕ ( x n ) ∂ L ∂ b = 0 ⇒ ∑ n = 1 N a n t n = 0 ∂ L ∂ ξ n = 0 ⇒ a n = C − μ n \begin{aligned} \frac{\partial L}{\partial \mathbf{w}} &amp;=0 \Rightarrow \mathbf{w}=\sum_{n=1}^{N} a_{n} t_{n} \phi\left(\mathbf{x}_{n}\right) \\ \frac{\partial L}{\partial b} &amp;=0 \Rightarrow \sum_{n=1}^{N} a_{n} t_{n}=0 \\ \frac{\partial L}{\partial \xi_{n}} &amp;=0 \quad \Rightarrow \quad a_{n}=C-\mu_{n} \end{aligned} wLbLξnL=0w=n=1Nantnϕ(xn)=0n=1Nantn=0=0an=Cμn之后代入原目标函数得 L ~ ( a ) = ∑ n = 1 N a n − 1 2 ∑ n = 1 N ∑ m = 1 N a n a m t n t m k ( x n , x m ) \widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) L (a)=n=1Nan21n=1Nm=1Nanamtntmk(xn,xm)可以发现目标函数与之前可分下是一样的,但是约束条件变为 0 ⩽ a n ⩽ C ∑ n = 1 N a n t n = 0 \begin{array}{l}{0 \leqslant a_{n} \leqslant C} \\ {\sum_{n=1}^{N} a_{n} t_{n}=0}\end{array} 0anCn=1Nantn=0对于 b b b的求解仍然是采取支持向量 0 &lt; a n &lt; C 0&lt;a_{n}&lt;C 0<an<C t n ( ∑ m ∈ S a m t m k ( x n , x m ) + b ) = 1 t_{n}\left(\sum_{m \in \mathcal{S}} a_{m} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)+b\right)=1 tn(mSamtmk(xn,xm)+b)=1同样地为了稳定性 b = 1 N M ∑ n ∈ M ( t n − ∑ m ∈ S a m t m k ( x n , x m ) ) b=\frac{1}{N_{\mathcal{M}}} \sum_{n \in \mathcal{M}}\left(t_{n}-\sum_{m \in \mathcal{S}} a_{m} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)\right) b=NM1nM(tnmSamtmk(xn,xm))还有一种等价的形式 ν − S V M \nu-SVM νSVM,最大化 L ~ ( a ) = − 1 2 ∑ n = 1 N ∑ m = 1 N a n a m t n t m k ( x n , x m ) \widetilde{L}(\mathbf{a})=-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) L (a)=21n=1Nm=1Nanamtntmk(xn,xm)约束为 0 ⩽ a n ⩽ 1 / N ∑ n = 1 N a n t n = 0 ∑ n = 1 N a n ⩾ ν \begin{array}{l}{0 \leqslant a_{n} \leqslant 1 / N} \\ {\sum_{n=1}^{N} a_{n} t_{n}=0} \\ {\sum_{n=1}^{N} a_{n} \geqslant \nu}\end{array} 0an1/Nn=1Nantn=0n=1Nanν
在这里插入图片描述
在这里插入图片描述
y ( x ) = w T ϕ ( x ) + b y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b y(x)=wTϕ(x)+b
在这里插入图片描述

7.1.2 Relation to logistic regression

与线性可分的情形⼀样,对于线性不可分的概率分布,我们可以⽤最⼩化正则化的误差函数的⽅法重新表⽰SVM。这也使得我们能够强调与logistic回归模型之间的相似性和差别。
由于 ξ n = ∣ t n − y ( x n ) ∣ \xi_{n}=\left|t_{n}-y\left(\mathbf{x}_{n}\right)\right| ξn=tny(xn),则 ξ n = 1 − y n t n \xi_{n}=1-y_{n} t_{n} ξn=1yntn,那么原目标函数可以写成 ∑ n = 1 N E S V ( y n t n ) + λ ∥ w ∥ 2 \sum_{n=1}^{N} E_{\mathrm{SV}}\left(y_{n} t_{n}\right)+\lambda\|\mathbf{w}\|^{2} n=1NESV(yntn)+λw2其中 λ = ( 2 C ) − 1 \lambda=(2 C)^{-1} λ=(2C)1 E S V ( y n t n ) = [ 1 − y n t n ] + E_{\mathrm{SV}}\left(y_{n} t_{n}\right)=\left[1-y_{n} t_{n}\right]_{+} ESV(yntn)=[1yntn]+
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.1.3 Multiclass SVMs

在这里插入图片描述
在这里插入图片描述

7.1.4 SVMs for regression

目标函数为 1 2 ∑ n = 1 N { y n − t n } 2 + λ 2 ∥ w ∥ 2 \frac{1}{2} \sum_{n=1}^{N}\left\{y_{n}-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2} 21n=1N{yntn}2+2λw2为了得到稀疏的解,引入误差函数 E ϵ ( y ( x ) − t ) = { 0 ,  if  ∣ y ( x ) − t ∣ &lt; ϵ ∣ y ( x ) − t ∣ − ϵ ,  otherwise  E_{\epsilon}(y(\mathbf{x})-t)=\left\{\begin{array}{ll}{0,} &amp; {\text { if }|y(\mathbf{x})-t|&lt;\epsilon} \\ {|y(\mathbf{x})-t|-\epsilon,} &amp; {\text { otherwise }}\end{array}\right. Eϵ(y(x)t)={0,y(x)tϵ, if y(x)t<ϵ otherwise 从而 C ∑ n = 1 N E ϵ ( y ( x n ) − t n ) + 1 2 ∥ w ∥ 2 C \sum_{n=1}^{N} E_{\epsilon}\left(y\left(\mathbf{x}_{n}\right)-t_{n}\right)+\frac{1}{2}\|\mathbf{w}\|^{2} Cn=1NEϵ(y(xn)tn)+21w2跟之前一样,每个数据都引入两个松弛因子 ξ n ⩾ 0 \xi_{n} \geqslant 0 ξn0 ξ ^ n ⩾ 0 \widehat{\xi}_{n} \geqslant 0 ξ n0,对于误差函数不为0的点就会给予惩罚 t n ⩽ y ( x n ) + ϵ + ξ n t n ⩾ y ( x n ) − ϵ − ξ ^ n \begin{aligned} t_{n} &amp; \leqslant y\left(\mathbf{x}_{n}\right)+\epsilon+\xi_{n} \\ t_{n} &amp; \geqslant y\left(\mathbf{x}_{n}\right)-\epsilon-\widehat{\xi}_{n} \end{aligned} tntny(xn)+ϵ+ξny(xn)ϵξ n
在这里插入图片描述
从而目标函数为 C ∑ n = 1 N ( ξ n + ξ ^ n ) + 1 2 ∥ w ∥ 2 C \sum_{n=1}^{N}\left(\xi_{n}+\widehat{\xi}_{n}\right)+\frac{1}{2}\|\mathbf{w}\|^{2} Cn=1N(ξn+ξ n)+21w2约束条件为 t n ⩽ y ( x n ) + ϵ + ξ n t n ⩾ y ( x n ) − ϵ − ξ ^ n \begin{array}{l}{t_{n} \leqslant y\left(\mathbf{x}_{n}\right)+\epsilon+\xi_{n}} \\ {t_{n} \geqslant y\left(\mathbf{x}_{n}\right)-\epsilon-\hat{\xi}_{n}}\end{array} tny(xn)+ϵ+ξntny(xn)ϵξ^n且松弛因子都大于或等于0。按照同样的方式可以得到其对偶形式 L = C ∑ n = 1 N ( ξ n + ξ ^ n ) + 1 2 ∥ w ∥ 2 − ∑ n = 1 N ( μ n ξ n + μ ^ n ξ ^ n ) − ∑ n = 1 N a n ( ϵ + ξ n + y n − t n ) − ∑ n = 1 N a ^ n ( ϵ + ξ ^ n − y n + t n ) \begin{aligned} L=&amp; C \sum_{n=1}^{N}\left(\xi_{n}+\widehat{\xi}_{n}\right)+\frac{1}{2}\|\mathbf{w}\|^{2}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \hat{\xi}_{n}\right) \\-&amp; \sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+y_{n}-t_{n}\right)-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-y_{n}+t_{n}\right) \end{aligned} L=Cn=1N(ξn+ξ n)+21w2n=1N(μnξn+μ nξ^n)n=1Nan(ϵ+ξn+yntn)n=1Na n(ϵ+ξ nyn+tn) ∂ L ∂ w = 0 ⇒ w = ∑ n = 1 N ( a n − a ^ n ) ϕ ( x n ) ∂ L ∂ b = 0 ⇒ ∑ n = 1 N ( a n − a ^ n ) = 0 ∂ L ∂ ξ n = 0 ⇒ a n + μ n = C ∂ L ∂ ξ ^ n = 0 ⇒ a ^ n + μ ^ n = C \begin{array}{l}{\frac{\partial L}{\partial \mathbf{w}}=0 \Rightarrow \mathbf{w}=\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) \phi\left(\mathbf{x}_{n}\right)} \\ {\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)=0} \\ {\frac{\partial L}{\partial \xi_{n}}=0 \quad \Rightarrow \quad a_{n}+\mu_{n}=C} \\ {\frac{\partial L}{\partial \widehat{\xi}_{n}}=0 \quad \Rightarrow \quad \widehat{a}_{n}+\widehat{\mu}_{n}=C}\end{array} wL=0w=n=1N(ana n)ϕ(xn)bL=0n=1N(ana n)=0ξnL=0an+μn=Cξ nL=0a n+μ n=C L ~ ( a , a ^ ) = − 1 2 ∑ n = 1 N ∑ m = 1 N ( a n − a ^ n ) ( a m − a ^ m ) k ( x n , x m ) − ϵ ∑ n = 1 N ( a n + a ^ n ) + ∑ n = 1 N ( a n − a ^ n ) t n \begin{aligned} \widetilde{L}(\mathbf{a}, \widehat{\mathbf{a}})=&amp;-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \\ &amp;-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n} \end{aligned} L (a,a )=21n=1Nm=1N(ana n)(ama m)k(xn,xm)ϵn=1N(an+a n)+n=1N(ana n)tn约束为 0 ⩽ a n ⩽ C 0 ⩽ a ^ n ⩽ C \begin{array}{l}{0 \leqslant a_{n} \leqslant C} \\ {0 \leqslant \widehat{a}_{n} \leqslant C}\end{array} 0anC0a nC对于新点的预测为 y ( x ) = ∑ n = 1 N ( a n − a ^ n ) k ( x , x n ) + b y(\mathbf{x})=\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) k\left(\mathbf{x}, \mathbf{x}_{n}\right)+b y(x)=n=1N(ana n)k(x,xn)+b由KKT条件 a n ( ϵ + ξ n + y n − t n ) = 0 a ^ n ( ϵ + ξ ^ n − y n + t n ) = 0 ( C − a n ) ξ n = 0 ( C − a ^ n ) ξ ^ n = 0 \begin{aligned} a_{n}\left(\epsilon+\xi_{n}+y_{n}-t_{n}\right) &amp;=0 \\ \widehat{a}_{n}\left(\epsilon+\hat{\xi}_{n}-y_{n}+t_{n}\right) &amp;=0 \\\left(C-a_{n}\right) \xi_{n} &amp;=0 \\\left(C-\widehat{a}_{n}\right) \hat{\xi}_{n} &amp;=0 \end{aligned} an(ϵ+ξn+yntn)a n(ϵ+ξ^nyn+tn)(Can)ξn(Ca n)ξ^n=0=0=0=0对于 0 &lt; a n &lt; C 0&lt;a_{n}&lt;C 0<an<C的点为支持向量,由此可以计算 b b b b = t n − ϵ − w T ϕ ( x n ) = t n − ϵ − ∑ m = 1 N ( a m − a ^ m ) k ( x n , x m ) \begin{aligned} b &amp;=t_{n}-\epsilon-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right) \\ &amp;=t_{n}-\epsilon-\sum_{m=1}^{N}\left(a_{m}-\widehat{a}_{m}\right) k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \end{aligned} b=tnϵwTϕ(xn)=tnϵm=1N(ama m)k(xn,xm)
在这里插入图片描述

7.2 Relevance Vector Machines

在这里插入图片描述
正定才能保证是个二次优化问题

7.2.1 RVM for regression

⽤于回归的相关向量机的形式是第3章研究过的线性模型的形式,但是先验概率有所不同,从⽽产⽣了稀疏解。其建模为 p ( t ∣ x , w , β ) = N ( t ∣ y ( x ) , β − 1 ) p(t | \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t | y(\mathbf{x}), \beta^{-1}\right) p(tx,w,β)=N(ty(x),β1)其中 y ( x ) = ∑ i = 1 M w i ϕ i ( x ) = w T ϕ ( x ) y(\mathbf{x})=\sum_{i=1}^{M} w_{i} \phi_{i}(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}) y(x)=i=1Mwiϕi(x)=wTϕ(x)为了能跟SVM对齐具体地 y ( x ) = ∑ n = 1 N w n k ( x , x n ) + b y(\mathbf{x})=\sum_{n=1}^{N} w_{n} k\left(\mathbf{x}, \mathbf{x}_{n}\right)+b y(x)=n=1Nwnk(x,xn)+b我们从更一般的情况入手,假设我们有 N N N个输入 x \mathbf x x,则似然函数为 p ( t ∣ X , w , β ) = ∏ n = 1 N p ( t n ∣ x n , w , β − 1 ) p(\mathbf{t} | \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} p\left(t_{n} | \mathbf{x}_{n}, \mathbf{w}, \beta^{-1}\right) p(tX,w,β)=n=1Np(tnxn,w,β1)我们可以在权重 w \mathbf w w上引入先验 p ( w ∣ α ) = ∏ i = 1 M N ( w i ∣ 0 , α i − 1 ) p(\mathbf{w} | \boldsymbol{\alpha})=\prod_{i=1}^{M} \mathcal{N}\left(w_{i} | 0, \alpha_{i}^{-1}\right) p(wα)=i=1MN(wi0,αi1)那么后验 p ( w ∣ t , X , α , β ) = N ( w ∣ m , Σ ) p(\mathbf{w} | \mathbf{t}, \mathbf{X}, \boldsymbol{\alpha}, \beta)=\mathcal{N}(\mathbf{w} | \mathbf{m}, \mathbf{\Sigma}) p(wt,X,α,β)=N(wm,Σ)其中 m = β Σ Φ T t Σ = ( A + β Φ T Φ ) − 1 \begin{aligned} \mathbf{m} &amp;=\beta \boldsymbol{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ \boldsymbol{\Sigma} &amp;=\left(\mathbf{A}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \end{aligned} mΣ=βΣΦTt=(A+βΦTΦ)1 A = d i a g ( α i ) \mathbf{A}=diag(\alpha _i) A=diag(αi),对于超参数 α , β \mathbf \alpha,\beta α,β,可以利用近似证据求得 p ( t ∣ X , α , β ) = ∫ p ( t ∣ X , w , β ) p ( w ∣ α ) d w p(\mathbf{t} | \mathbf{X}, \boldsymbol{\alpha}, \beta)=\int p(\mathbf{t} | \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} | \boldsymbol{\alpha}) \mathrm{d} \mathbf{w} p(tX,α,β)=p(tX,w,β)p(wα)dw从而 ln ⁡ p ( t ∣ X , α , β ) = ln ⁡ N ( t ∣ 0 , C ) = − 1 2 { N ln ⁡ ( 2 π ) + ln ⁡ ∣ C ∣ + t T C − 1 t } \begin{aligned} \ln p(\mathbf{t} | \mathbf{X}, \boldsymbol{\alpha}, \beta) &amp;=\ln \mathcal{N}(\mathbf{t} | \mathbf{0}, \mathbf{C}) \\ &amp;=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} lnp(tX,α,β)=lnN(t0,C)=21{Nln(2π)+lnC+tTC1t}其中 C = β − 1 I + Φ A − 1 Φ T \mathbf{C}=\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} C=β1I+ΦA1ΦT见3.5.令导数=0 α i  new  = γ i m i 2 ( β  new  ) − 1 = ∥ t − Φ m ∥ 2 N − ∑ i γ i \begin{aligned} \alpha_{i}^{\text { new }} &amp;=\frac{\gamma_{i}}{m_{i}^{2}} \\\left(\beta^{\text { new }}\right)^{-1} &amp;=\frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \end{aligned} αi new (β new )1=mi2γi=NiγitΦm2其中 γ i = 1 − α i Σ i i \gamma_{i}=1-\alpha_{i} \Sigma_{i i} γi=1αiΣii。然后再迭代得到 w \mathbf w w的后验,再得到以上估计,如此迭代直至收敛。优化后,可以发现大部分 α i \alpha _i αi会变得很大,从而 w \mathbf w w的后验的均值和方差趋于0,那么这些 w i \mathbf w_i wi的值就会变为0,也就是其对应的基函数没什么作用,进而得到稀疏解。
在这里插入图片描述
得到了 α ⋆ \boldsymbol{\alpha}^{\star} α and β ⋆ \beta^{\star} β时,预测分布为 p ( t ∣ x , X , t , α ⋆ , β ⋆ ) = ∫ p ( t ∣ x , w , β ⋆ ) p ( w ∣ X , t , α ⋆ , β ⋆ ) d w = N ( t ∣ m T ϕ ( x ) , σ 2 ( x ) ) \begin{aligned} p\left(t | \mathbf{x}, \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) &amp;=\int p\left(t | \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} | \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &amp;=\mathcal{N}\left(t | \mathbf{m}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned} p(tx,X,t,α,β)=p(tx,w,β)p(wX,t,α,β)dw=N(tmTϕ(x),σ2(x))其中 σ 2 ( x ) = ( β ⋆ ) − 1 + ϕ ( x ) T Σ ϕ ( x ) \sigma^{2}(\mathbf{x})=\left(\beta^{\star}\right)^{-1}+\phi(\mathbf{x})^{\mathrm{T}} \boldsymbol{\Sigma} \phi(\mathbf{x}) σ2(x)=(β)1+ϕ(x)TΣϕ(x)

7.2.2 Analysis of sparsity

我们之前已经注意到⾃动相关性检测的过程使得参数的⼀个⼦集趋于零。我们现在更加详细地考察相关向量机的稀疏性的原理。在这个过程中,我们会得到⼀个与之前的直接⽅法相⽐更快的最优化超参数的⽅法。
直观上说明当基函数向量与观测向量不对齐时, α \alpha α就会趋于无穷大,进而使得该基函数无效。
在这里插入图片描述
数学上证明,将其展开 C = β − 1 I + ∑ j ≠ i α j − 1 φ j φ j T + α i − 1 φ i φ i T = C − i + α i − 1 φ i φ i T \begin{aligned} \mathbf{C} &amp;=\beta^{-1} \mathbf{I}+\sum_{j \neq i} \alpha_{j}^{-1} \varphi_{j} \boldsymbol{\varphi}_{j}^{\mathrm{T}}+\alpha_{i}^{-1} \boldsymbol{\varphi}_{i} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \\ &amp;=\mathbf{C}_{-i}+\alpha_{i}^{-1} \boldsymbol{\varphi}_{i} \varphi_{i}^{\mathrm{T}} \end{aligned} C=β1I+j̸=iαj1φjφjT+αi1φiφiT=Ci+αi1φiφiT其中 φ i \varphi_{i} φi denotes the i  th  i^{\text { th }} i th  column of Φ \Phi Φ,即 ( ϕ i ( x 1 ) , … , ϕ i ( x N ) ) \left(\phi_{i}\left(\boldsymbol{x}_{1}\right), \ldots, \phi_{i}\left(\boldsymbol{x}_{N}\right)\right) (ϕi(x1),,ϕi(xN)) ϕ n , \phi_{n}, ϕn, which denotes the n  th  n^{\text { th }} n th  row of Φ \Phi Φ;根据矩阵恒等式 ∣ C ∣ = ∣ C − i ∥ 1 + α i − 1 φ i T C − i − 1 φ i ∣ C − 1 = C − i − 1 − C − i − 1 φ i φ i T C − i − 1 α i + φ i T C − i − 1 φ i \begin{aligned}|\mathbf{C}| &amp;=\left|\mathbf{C}_{-i} \| 1+\alpha_{i}^{-1} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}\right| \\ \mathbf{C}^{-1} &amp;=\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}} \end{aligned} CC1=Ci1+αi1φiTCi1φi=Ci1αi+φiTCi1φiCi1φiφiTCi1则之前的似然函数可以改写为 L ( α ) = L ( α − i ) + λ ( α i ) L(\boldsymbol{\alpha})=L\left(\boldsymbol{\alpha}_{-i}\right)+\lambda\left(\alpha_{i}\right) L(α)=L(αi)+λ(αi)其中 λ ( α i ) = 1 2 [ ln ⁡ α i − ln ⁡ ( α i + s i ∣ ) + q i 2 α i + s i ] \lambda\left(\alpha_{i}\right)=\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i} |\right)+\frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right] λ(αi)=21[lnαiln(αi+si)+αi+siqi2]上式包含了所有关于 α i \alpha_i αi,引入 s i = φ i T C − i − 1 φ i q i = φ i T C − i − 1 t \begin{aligned} s_{i} &amp;=\varphi_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \varphi_{i} \\ q_{i} &amp;=\varphi_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \mathbf{t} \end{aligned} siqi=φiTCi1φi=φiTCi1t
在这里插入图片描述
导数为0 d λ ( α i ) d α i = α i − 1 s i 2 − ( q i 2 − s i ) 2 ( α i + s i ) 2 \frac{\mathrm{d} \lambda\left(\alpha_{i}\right)}{\mathrm{d} \alpha_{i}}=\frac{\alpha_{i}^{-1} s_{i}^{2}-\left(q_{i}^{2}-s_{i}\right)}{2\left(\alpha_{i}+s_{i}\right)^{2}} dαidλ(αi)=2(αi+si)2αi1si2(qi2si)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.2.3 RVM for classification

我们可以将相关向量机框架推⼴到分类问题,推⼴的⽅法是将权值的ARD先验应⽤到第4章研究过的概率线性分类模型上。⾸先,我们考虑⼆分类问题,⽬标变量是⼆值变量 t ∈ { 0 , 1 } t \in\{0,1\} t{0,1}。这个模型现在的形式为基函数的线性组合经过logistic sigmoid函数的变换,即 y ( x , w ) = σ ( w T ϕ ( x ) ) y(\mathbf{x}, \mathbf{w})=\sigma\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})\right) y(x,w)=σ(wTϕ(x))如果我们对权重施加一个高斯先验,那么就变成了第四章中研究过的问题,我们采用ARD先验,即对每个权重施加一个不同精度得高斯分布。由于权重的后验不再是高斯了,因此可以采用拉普拉斯近似 ln ⁡ p ( w ∣ t , α ) = ln ⁡ { p ( t ∣ w ) p ( w ∣ α ) } − ln ⁡ p ( t ∣ α ) = ∑ n = 1 N { t n ln ⁡ y n + ( 1 − t n ) ln ⁡ ( 1 − y n ) } − 1 2 w T A w + c o n s t \begin{array}{l}{\ln p(\mathbf{w} | \mathbf{t}, \boldsymbol{\alpha})=\ln \{p(\mathbf{t} | \mathbf{w}) p(\mathbf{w} | \boldsymbol{\alpha})\}-\ln p(\mathbf{t} | \boldsymbol{\alpha})} \\ {\quad=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}-\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\mathrm{const}}\end{array} lnp(wt,α)=ln{p(tw)p(wα)}lnp(tα)=n=1N{tnlnyn+(1tn)ln(1yn)}21wTAw+const ∇ ln ⁡ p ( w ∣ t , α ) = Φ T ( t − y ) − A w ∇ ∇ ln ⁡ p ( w ∣ t , α ) = − ( Φ T B Φ + A ) \begin{aligned} \nabla \ln p(\mathbf{w} | \mathbf{t}, \boldsymbol{\alpha}) &amp;=\mathbf{\Phi}^{\mathrm{T}}(\mathbf{t}-\mathbf{y})-\mathbf{A} \mathbf{w} \\ \nabla \nabla \ln p(\mathbf{w} | \mathbf{t}, \boldsymbol{\alpha}) &amp;=-\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{B} \mathbf{\Phi}+\mathbf{A}\right) \end{aligned} lnp(wt,α)lnp(wt,α)=ΦT(ty)Aw=(ΦTBΦ+A)其中 B \mathbf B B N × N N\times N N×N的对角矩阵 b n = y n ( 1 − y n ) b_{n}=y_{n}\left(1-y_{n}\right) bn=yn(1yn) w ⋆ = A − 1 Φ T ( t − y ) Σ = ( Φ T B Φ + A ) − 1 \begin{aligned} \mathbf{w}^{\star} &amp;=\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\mathbf{t}-\mathbf{y}) \\ \boldsymbol{\Sigma} &amp;=\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{B} \Phi+\mathbf{A}\right)^{-1} \end{aligned} wΣ=A1ΦT(ty)=(ΦTBΦ+A)1采用拉普拉斯近似 p ( t ∣ α ) = ∫ p ( t ∣ w ) p ( w ∣ α ) d w ≃ p ( t ∣ w ⋆ ) p ( w ⋆ ∣ α ) ( 2 π ) M / 2 ∣ Σ ∣ 1 / 2 \begin{aligned} p(\mathbf{t} | \boldsymbol{\alpha}) &amp;=\int p(\mathbf{t} | \mathbf{w}) p(\mathbf{w} | \boldsymbol{\alpha}) \mathrm{d} \mathbf{w} \\ &amp; \simeq p\left(\mathbf{t} | \mathbf{w}^{\star}\right) p\left(\mathbf{w}^{\star} | \boldsymbol{\alpha}\right)(2 \pi)^{M / 2}|\mathbf{\Sigma}|^{1 / 2} \end{aligned} p(tα)=p(tw)p(wα)dwp(tw)p(wα)(2π)M/2Σ1/2代入了后求导为0 − 1 2 ( w i ⋆ ) 2 + 1 2 α i − 1 2 Σ i i = 0 -\frac{1}{2}\left(w_{i}^{\star}\right)^{2}+\frac{1}{2 \alpha_{i}}-\frac{1}{2} \Sigma_{i i}=0 21(wi)2+2αi121Σii=0从而 α i  new  = γ i ( w i ⋆ ) 2 \alpha_{i}^{\text { new }}=\frac{\gamma_{i}}{\left(w_{i}^{\star}\right)^{2}} αi new =(wi)2γi其中 γ i = 1 − α i Σ i i \gamma_{i}=1-\alpha_{i} \Sigma_{i i} γi=1αiΣii定义 t ^ = Φ w ⋆ + B − 1 ( t − y ) \widehat{\mathbf{t}}=\mathbf{\Phi} \mathbf{w}^{\star}+\mathbf{B}^{-1}(\mathbf{t}-\mathbf{y}) t =Φw+B1(ty),则 ln ⁡ p ( t ∣ α , β ) = − 1 2 { N ln ⁡ ( 2 π ) + ln ⁡ ∣ C ∣ + ( t ^ ) T C − 1 t ^ } \ln p(\mathbf{t} | \boldsymbol{\alpha}, \beta)=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+(\widehat{\mathbf{t}})^{\mathrm{T}} \mathbf{C}^{-1} \widehat{\mathbf{t}}\right\} lnp(tα,β)=21{Nln(2π)+lnC+(t )TC1t }其中 C = B + Φ A Φ T \mathbf{C}=\mathbf{B}+\mathbf{\Phi} \mathbf{A} \mathbf{\Phi}^{\mathrm{T}} C=B+ΦAΦT以上形式跟回归问题一样可以进行稀疏性分析,同样可以得到一个快速算法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值