集成学习——线性判别分析

最新推荐文章于 2024-07-19 13:59:11 发布

PhD的自我修养

最新推荐文章于 2024-07-19 13:59:11 发布

阅读量200

点赞数 1

分类专栏：集成学习文章标签：算法

本文链接：https://blog.csdn.net/chenconggan0499/article/details/119240446

版权

集成学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

集成学习——线性判别分析

线性判别分析由权重向量 $\mathbf{w}$ 和偏差项 $b$ 构成。给定样例 $\mathbf{x}$ ，其按照规则 $y=\mathsf{sign}(\mathbf{w}^\mathsf{T}\mathbf{x}+b)$ 预测获得类别标记 $y$ 。

为了寻找最优的线性分类器，其基本想法是使不同类的样本尽量远离，同时使同类样本尽量靠近。这一目标可通过扩大不同类别样本的类中心距离、同时缩小每个类的类内方差实现。

以二分类问题为例进行说明，记所有正样本的均值和协方差矩阵为 $\mu_{+}$ 和 $\mathbf{\Sigma}_{+}$ ，所有负样本的均值和协方差矩阵为 $\mu_{-}$ 和 $\mathbf{\Sigma}_{-}$ ，则投影后的类中心距离为，

$S_B(\mathbf{w})=\mathbf{w}^\mathsf{T}(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}\,.$

正、负样本的类内方差之和为，

$S_W(\mathbf{w})=\mathbf{w}^\mathsf{T}(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}\,.$

由此，线性判别分析可通过最大化如下目标以获得最优的权重向量，即，

$J(\mathbf{w})=\frac{S_B(\mathbf{w})}{S_W(\mathbf{w})}\,.$

由于 $\mathbf{w}$ 的模值改变时， $S_B(\mathbf{w})$ 和 $S_W(\mathbf{w})$ 将等比例地增加或减小，因此上述优化问题可等价于，

$\begin{aligned} \max_{\mathbf{w}} \quad &S_B(\mathbf{w}) \\ \mathrm{s.t. } \quad &S_W(\mathbf{w})=1\,. \end{aligned}$

由于 ${\nabla}S_B(\mathbf{w})=2(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}$ ， ${\nabla}S_W(\mathbf{w})=2(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}$ ，则由拉格朗日乘子法，有，

$(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}=(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})\mathbf{w}\,.$

考虑到 $(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}$ 为标量，因此不妨设 $(\mu_{+}-\mu_{-})(\mu_{+}-\mu_{-})^\mathsf{T}\mathbf{w}=k(\mathbf{w})(\mu_{+}-\mu_{-})$ ，故有，

$\mathbf{w}=k(\mathbf{w})(\mathbf{\Sigma}_{+}+\mathbf{\Sigma}_{-})^{-1}(\mu_{+}-\mu_{-})\,.$

根据 $S_W(\mathbf{w})=1$ 可确定 $k(\mathbf{w})$ 及 $\mathbf{w}$ 的取值，但正如上文提到的， $\mathbf{w}$ 的长度并不影响目标函数值，因此可取 $k(\mathbf{w})=1$ 。

$\mathbf{w}$ 确定后， $b$ 的确定可根据实际问题中的样本分布相应确定。

PhD的自我修养

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习——线性判别分析

集成学习——线性判别分析线性判别分析由权重向量w\mathbf{w}w和偏差项bbb构成。给定样例x\mathbf{x}x，其按照规则y=sign(wTx+b)y=\mathsf{sign}(\mathbf{w}^\mathsf{T}\mathbf{x}+b)y=sign(wTx+b)预测获得类别标记yyy。为了寻找最优的线性分类器，其基本想法是使不同类的样本尽量远离，同时使同类样本尽量靠近。这一目标可通过扩大不同类别样本的类中心距离、同时缩小每个类的类内方差实现。以二分类问题为例进行说明，记所有正样
复制链接

扫一扫