集成学习——线性判别分析

集成学习——线性判别分析

线性判别分析由权重向量 w \mathbf{w} w和偏差项 b b b构成。给定样例 x \mathbf{x} x,其按照规则 y = s i g n ( w T x + b ) y=\mathsf{sign}(\mathbf{w}^\mathsf{T}\mathbf{x}+b) y=sign(wTx+b)预测获得类别标记 y y y

为了寻找最优的线性分类器,其基本想法是使不同类的样本尽量远离,同时使同类样本尽量靠近。这一目标可通过扩大不同类别样本的类中心距离、同时缩小每个类的类内方差实现。

以二分类问题为例进行说明,记所有正样本的均值和协方差矩阵为 μ + \mu_{+} μ+ Σ + \mathbf{\Sigma}_{+} Σ+,所有负样本的均值和协方差矩阵为 μ − \mu_{-} μ Σ − \mathbf{\Sigma}_{-} Σ,则投影后的类中心距离为,

S B ( w ) = w T ( μ + − μ − ) ( μ + − μ − ) T w   . S_B(\mathbf{w})=\mathbf{w}^\mathsf{T}(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}\,. SB(w)=wT(μ+μ)(μ+μ)Tw.

正、负样本的类内方差之和为,

S W ( w ) = w T ( Σ + + Σ − ) w   . S_W(\mathbf{w})=\mathbf{w}^\mathsf{T}(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}\,. SW(w)=wT(Σ++Σ)w.

由此,线性判别分析可通过最大化如下目标以获得最优的权重向量,即,

J ( w ) = S B ( w ) S W ( w )   . J(\mathbf{w})=\frac{S_B(\mathbf{w})}{S_W(\mathbf{w})}\,. J(w)=SW(w)SB(w).

由于 w \mathbf{w} w的模值改变时, S B ( w ) S_B(\mathbf{w}) SB(w) S W ( w ) S_W(\mathbf{w}) SW(w)将等比例地增加或减小,因此上述优化问题可等价于,

max ⁡ w S B ( w ) s . t . S W ( w ) = 1   . \begin{aligned} \max_{\mathbf{w}} \quad &S_B(\mathbf{w}) \\ \mathrm{s.t. } \quad &S_W(\mathbf{w})=1\,. \end{aligned} wmaxs.t.SB(w)SW(w)=1.

由于 ∇ S B ( w ) = 2 ( μ + − μ − ) ( μ + − μ − ) T w {\nabla}S_B(\mathbf{w})=2(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w} SB(w)=2(μ+μ)(μ+μ)Tw ∇ S W ( w ) = 2 ( Σ + + Σ − ) w {\nabla}S_W(\mathbf{w})=2(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w} SW(w)=2(Σ++Σ)w,则由拉格朗日乘子法,有,

( μ + − μ − ) ( μ + − μ − ) T w = ( Σ + + Σ − ) w   . (\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}=(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}\,. (μ+μ)(μ+μ)Tw=(Σ++Σ)w.

考虑到 ( μ + − μ − ) T w (\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w} (μ+μ)Tw为标量,因此不妨设 ( μ + − μ − ) ( μ + − μ − ) T w = k ( w ) ( μ + − μ − ) (\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}=k(\mathbf{w})(\mu_{+}-\mu_{-}) (μ+μ)(μ+μ)Tw=k(w)(μ+μ),故有,

w = k ( w ) ( Σ + + Σ − ) − 1 ( μ + − μ − )   . \mathbf{w}=k(\mathbf{w})(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})^{-1}(\mu_{+}-\mu_{-})\,. w=k(w)(Σ++Σ)1(μ+μ).

根据 S W ( w ) = 1 S_W(\mathbf{w})=1 SW(w)=1可确定 k ( w ) k(\mathbf{w}) k(w) w \mathbf{w} w的取值,但正如上文提到的, w \mathbf{w} w的长度并不影响目标函数值,因此可取 k ( w ) = 1 k(\mathbf{w})=1 k(w)=1

w \mathbf{w} w确定后, b b b的确定可根据实际问题中的样本分布相应确定。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值