西瓜书第3章之LDA

最新推荐文章于 2024-05-17 15:31:47 发布

su_poplar

最新推荐文章于 2024-05-17 15:31:47 发布

阅读量1.5k

点赞数 1

分类专栏：西瓜书总结文章标签：机器学习西瓜书 LDA

本文链接：https://blog.csdn.net/qq_34553043/article/details/82153896

版权

西瓜书总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

西瓜书第3章之LDA

- 3.3.1 LDA(线性判别分析-----二分类)
- 3.3.2 LDA(多分类问题)

3.3.1 LDA(线性判别分析-----二分类)

给定训练集，将样本投影到一条直线上，使得投影后的异类样本尽可能远离 $argmax(||w^Tu_0-w^Tu_1||)$ 同类样本尽可能靠近
$argmin(w^T\sum_0w+w^T\sum_1w)$ 使得对新样本进行分类时，对其投影到这条直线上，根据投影位置确定类别。其中 $X_i,u_i,\sum_i分别表示示例集合、均值向量、协方差矩阵。$
即 $\frac{||w^Tu_0-w^Tu_1||^2}{w^T\sum_0w+w^T\sum_1w} \\ = \frac{w^T(u_0-u_1)(u_0-u_1)^Tw}{w^T(\sum_0+\sum_1)w}$
定义类内散度矩阵
$令S_w = \sum_0+\sum_1 \\ = \sum_{x\in X_0}(x-u_0)(x-u_0)^T+\sum_{x\in X_1}(x-u_1)(x-u_1)^T$
定义类间散度矩阵
$令S_b=(u_0-u_1)(u_0-u_1)^T$
则目标为确定J最大时w的值 $J=\frac{w^TS_bw}{w^TS_ww}$
令 $w^TS_ww=1$ 原式变为 $min (-w^TS_bw)$ $s.t.w^TS_ww=1$
根据拉格朗日乘子式可得 $J=-w^TS_bw+\lambda (w^TS_ww-1)$
$\frac{\partial J}{\partial w}= 0 \\ S_bw=\lambda S_ww \\ (u_0-u_1)(u_0-u_1)^Tw=\lambda S_ww \\$ 因为 $u_0-u_1)^Tw$ 为常数，设为 $\lambda_{w}$ 得 $(u_0-u_1)\lambda_w=\lambda S_ww$ 常数 $\lambda \lambda_w只是对w的放大或缩小，所以删掉得$
$w^*=S_w^{-1}(u_0-u_1)$
若存在 $S_w$ 不可逆，则利用奇异值分解（SVD）来求得。

3.3.2 LDA(多分类问题)

对于多分类的问题， $m_i$ 表示第i类样本的个数。μ 为所有样本的样本均值，而 $u_i$ 则表示第i类样本的样本均值。此时我们得到的都是矩阵而不再是二分类的实数。类间散度矩阵： $S_b=\sum_{i=1}^Nm_i(u_i-u)(u_i-u)^T$ 类内散度矩阵： $S_w=\sum_{i=1}^N\sum_{x\in X_i}(x-u_i)(x-u_i)^T$
优化目标为 $J_{max}=\frac{|W^TS_bW|}{|W^TS_wW|}$ 或 $J_{max}=\frac{tr(W^TS_bW)}{tr(W^TS_wW)}$
参照二分类求解，可转化为 $S_bW= \lambda S_wW \\ \lambda= S_w^{-1}S_b$
$W^*=J_{max}= \frac{|W^TS_bW|}{|W^TS_wW|} \\ = \frac{|W^T\lambda S_wW|}{|W^TS_wW|} \\ = \lambda$
$S_b=\sum_{i=1}^Nm_i(u_i-u)(u_i-u)^T$
可以看出， $S_b$ 是K个秩一矩阵 $m_k-m)(m_k-m)^T$ 的和（因为 $m_k-m)$ 是秩一的向量），所以它的秩最大为K。并 $Nm=N_1m_1+N_2m_2+\ldots+N_km_k$ ,这K项中有一项可以被线性表出。所以, $S_b$ 的秩最大为K-1。
所以参数W的值闭式解为矩阵 $S^{−1}_ωS_b$ 的d个最大特征值所对应的特征向量，其中d<=c-1。因为特征向量的个数通常要远远少于原有数据特征的个数，因此线性判别分析也被视为一种经典的监督降维技术。

可参考教科书上的LDA为什么长这个样子？

su_poplar

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
西瓜书第3章之LDA

西瓜书第3章公式推导四3.3.1 LDA(线性判别分析)LDA：给定训练集，将样本投影到一条直线上，使得投影后的异类样本尽可能远离argmax(||wTu0−wTu1||)argmax(||wTu0−wTu1||)argmax(||w^Tu_0-w^Tu_1||)同类样本尽可能靠近 argmin(wT∑0w+wT∑1w)argmin(wT∑0w+wT∑1w)argmin(w^T\sum_...
复制链接

扫一扫