1 线性模型与非线性模型
在学习表示定理之前我们要先理解什么是线性模型,这个概念听过很多次,但真正追究起来并不是很清楚,在下面参考的第一二篇文章中对广义线性模型进行了讲解,在此我也不做总结,一是能力有限怕带跑偏了,二是本篇内容的重点不在此。其中比较明确的一点就是线性模型始终试图找到一个超平面对数据进行划分,例如逻辑回归,它是用超平面 w T x + b w^{T}x+b wTx+b对数据进行划分,只不过对超平面的划分结果进行了非线性处理;引入核技巧的SVM则是先对数据进行了非线性映射,然后对映射后的特征空间用 w T x + b w^{T}x+b wTx+b进行划分;所以这两者都属于线性模型。
2 表示定理
表示定理的内容如下:
对于任何采用L2正则化的线性模型,其目标函数形式为:
m i n w ∑ i = 1 n e r r ( y i , w T x i ) + λ w T w min_{w}\sum_{i=1}^{n}err(y_{i},w^{T}x_{i})+\lambda w^{T}w minw∑i=1nerr(yi,wTxi)+λwTw,那么其最优解可以表示为: w ∗ = ∑ i = 1 n α i x i w^{*}=\sum_{i=1}^{n}\alpha _{i}x_{i} w∗=∑i=1nαixi。证明如下:
我们可以假设最优解 w ∗ = w ∥ ∗ + w ⊥ ∗ w^{*}=w_{\parallel}^{*}+w_{\perp}^{*} w∗=w∥∗+w⊥∗,其中:
w ∥ ∗ w_{\parallel}^{*} w∥∗属于由向量组{
x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn}生成的子空间 s p a n ( x i ) span(x_{i}) span(xi);
w ⊥ ∗ w_{\perp}^{*} w⊥∗属于 s p a n ( x i ) span(x_{i}) span(xi)的正交补空间;
那么对于任意训练样本 x i x_{i} xi:
w ∗ T x i = ( w ∥ ∗ + w ⊥ ∗ ) T x i = w ∥ ∗ T x i w^{*T}x_{i}=(w_{\parallel}^{*}+w_{\perp}^{*})^{T}x_{i}=w_{\parallel}^{*T}x_{i} w∗Txi=(w∥∗+w⊥∗)