集成学习——线性判别分析
线性判别分析由权重向量 w \mathbf{w} w和偏差项 b b b构成。给定样例 x \mathbf{x} x,其按照规则 y = s i g n ( w T x + b ) y=\mathsf{sign}(\mathbf{w}^\mathsf{T}\mathbf{x}+b) y=sign(wTx+b)预测获得类别标记 y y y。
为了寻找最优的线性分类器,其基本想法是使不同类的样本尽量远离,同时使同类样本尽量靠近。这一目标可通过扩大不同类别样本的类中心距离、同时缩小每个类的类内方差实现。
以二分类问题为例进行说明,记所有正样本的均值和协方差矩阵为 μ + \mu_{+} μ+和 Σ + \mathbf{\Sigma}_{+} Σ+,所有负样本的均值和协方差矩阵为 μ − \mu_{-} μ−和 Σ − \mathbf{\Sigma}_{-} Σ−,则投影后的类中心距离为,
S B ( w ) = w T ( μ + − μ − ) ( μ + − μ − ) T w . S_B(\mathbf{w})=\mathbf{w}^\mathsf{T}(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}\,. SB(w)=wT(μ+−μ−)(μ+−μ−)Tw.
正、负样本的类内方差之和为,
S W ( w ) = w T ( Σ + + Σ − ) w . S_W(\mathbf{w})=\mathbf{w}^\mathsf{T}(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}\,. SW(w)=wT(Σ++Σ−)w.
由此,线性判别分析可通过最大化如下目标以获得最优的权重向量,即,
J ( w ) = S B ( w ) S W ( w ) . J(\mathbf{w})=\frac{S_B(\mathbf{w})}{S_W(\mathbf{w})}\,. J(w)=SW(w)SB(w).
由于 w \mathbf{w} w的模值改变时, S B ( w ) S_B(\mathbf{w}) SB(w)和 S W ( w ) S_W(\mathbf{w}) SW(w)将等比例地增加或减小,因此上述优化问题可等价于,
max w S B ( w ) s . t . S W ( w ) = 1 . \begin{aligned} \max_{\mathbf{w}} \quad &S_B(\mathbf{w}) \\ \mathrm{s.t. } \quad &S_W(\mathbf{w})=1\,. \end{aligned} wmaxs.t.SB(w)SW(w)=1.
由于 ∇ S B ( w ) = 2 ( μ + − μ − ) ( μ + − μ − ) T w {\nabla}S_B(\mathbf{w})=2(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w} ∇SB(w)=2(μ+−μ−)(μ+−μ−)Tw, ∇ S W ( w ) = 2 ( Σ + + Σ − ) w {\nabla}S_W(\mathbf{w})=2(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w} ∇SW(w)=2(Σ++Σ−)w,则由拉格朗日乘子法,有,
( μ + − μ − ) ( μ + − μ − ) T w = ( Σ + + Σ − ) w . (\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}=(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}\,. (μ+−μ−)(μ+−μ−)Tw=(Σ++Σ−)w.
考虑到 ( μ + − μ − ) T w (\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w} (μ+−μ−)Tw为标量,因此不妨设 ( μ + − μ − ) ( μ + − μ − ) T w = k ( w ) ( μ + − μ − ) (\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}=k(\mathbf{w})(\mu_{+}-\mu_{-}) (μ+−μ−)(μ+−μ−)Tw=k(w)(μ+−μ−),故有,
w = k ( w ) ( Σ + + Σ − ) − 1 ( μ + − μ − ) . \mathbf{w}=k(\mathbf{w})(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})^{-1}(\mu_{+}-\mu_{-})\,. w=k(w)(Σ++Σ−)−1(μ+−μ−).
根据 S W ( w ) = 1 S_W(\mathbf{w})=1 SW(w)=1可确定 k ( w ) k(\mathbf{w}) k(w)及 w \mathbf{w} w的取值,但正如上文提到的, w \mathbf{w} w的长度并不影响目标函数值,因此可取 k ( w ) = 1 k(\mathbf{w})=1 k(w)=1。
w \mathbf{w} w确定后, b b b的确定可根据实际问题中的样本分布相应确定。