〖机器学习白板推导1〗样本均值&样本方差&PCA！

最新推荐文章于 2023-05-31 23:38:21 发布

AI大模型前沿研究

最新推荐文章于 2023-05-31 23:38:21 发布

阅读量1k

点赞数 1

分类专栏： Machine Learning学习笔记文章标签：机器学习人工智能

引用请附上作者博客链接https://zhangkaifang.blog.csdn.net/，谢谢理解！

本文链接：https://blog.csdn.net/abc13526222160/article/details/105167810

版权

Machine Learning学习笔记专栏收录该内容

70 篇文章 35 订阅

订阅专栏

〖机器学习白板推导1〗样本均值&样本方差&PCA！

文章目录

本文整理自b站大神【机器学习】【白板推导系列】
首先假设样本集 $\boldsymbol X_{N \times p}=(\boldsymbol x_{1}, \ldots, \boldsymbol x_{n})^{\top}$ ，其中 $N$ 为样本个数， $p$ 为样本维度。

一. 样本均值

样本均值 $\bar{\boldsymbol x}$ 为：
$\bar{\boldsymbol x}=\frac{1}{N} \sum_{i=1}^{N} x_{i} =\frac{1}{N} (\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}) (1, \ldots, 1)^{\top}= \frac{1}{N} \boldsymbol X^{\top} \boldsymbol I \tag{1}$ 其中： $\boldsymbol I=(1, \ldots, 1)^{\top}_{N \times 1}$ 为列向量。

二. 样本方差

样本方差 $\boldsymbol S$ 为：
$\begin{aligned} \boldsymbol S &=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol x_{i}-\bar{\boldsymbol x}\right)\left(\boldsymbol x_{i}-\bar{\boldsymbol x}\right)^{\top} \\ &=\frac{1}{N}\left(\boldsymbol x_{1}-\bar{\boldsymbol x}, \ldots, \boldsymbol x_{N}-\bar{\boldsymbol x}\right)\left(\boldsymbol x_{1}-\bar{\boldsymbol x}, \ldots, \boldsymbol x_{N}-\bar{\boldsymbol x}\right)^{\top} \\ &=\frac{1}{N} \left[ \left(\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}\right)-\left(\bar{\boldsymbol x}, \ldots, \bar{\boldsymbol x}\right) \right]\left[ \left(\boldsymbol x_{1}, \ldots, \boldsymbol x_{N}\right)-\left(\bar{\boldsymbol x}, \ldots, \bar{\boldsymbol x}\right) \right] ^{\top} \\ &=\frac{1}{N} \left( \boldsymbol X^{\top}-\bar{\boldsymbol x}\left({1, \ldots, 1}\right)\right)\left( \boldsymbol X^{\top}-\bar{\boldsymbol x}\left({1, \ldots, 1}\right)\right)^{\top} \\ &=\frac{1}{N} \left( \boldsymbol X^{\top}-\bar{\boldsymbol x }\boldsymbol I^{\top}\right)\left( \boldsymbol X^{\top}-\bar{\boldsymbol x }\boldsymbol I^{\top}\right)^{\top} \tag{2} \end{aligned}$ 把样本均值带入可以得到：
$\begin{aligned} \boldsymbol S &=\frac{1}{N} \left( \boldsymbol X^{\top}-\frac{1}{N} \boldsymbol X^{\top} \boldsymbol I\boldsymbol I^{\top}\right)\left( \boldsymbol X^{\top}-\frac{1}{N} \boldsymbol X^{\top} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \\ &=\frac{1}{N} \left [ \boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)\right ] \left [\boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \right ] \tag{3} \end{aligned}$ 这里令 $\boldsymbol H_{N \times N}=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}$ ， $\boldsymbol H$ 称作中心矩阵。

三. 中心矩阵的性质

中心矩阵 $\boldsymbol H$ 为对称矩阵：
$\boldsymbol H=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} =\boldsymbol H^{\top} \tag{4}$
中心矩阵 $\boldsymbol H$ 为对称矩阵：
$\begin{aligned} \boldsymbol H^2= \boldsymbol H^{\top} \boldsymbol H=\boldsymbol H\boldsymbol H &=\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \right) \left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \right) \\ &=\boldsymbol E-\frac{2}{N} \boldsymbol I\boldsymbol I^{\top} +\frac{1}{N^2} \boldsymbol I\boldsymbol I^{\top}\boldsymbol I\boldsymbol I^{\top} \tag{5}\end{aligned}$ 这里 $\boldsymbol I^{\top}\boldsymbol I=N$ ，所以等式 $(5)$ 可以化简为：
$\begin{aligned} \boldsymbol H^2 &=\boldsymbol E-\frac{2}{N} \boldsymbol I\boldsymbol I^{\top} +\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \\ &=\boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top} \\ &=\boldsymbol H \tag{6} \end{aligned}$ 也就是 $\boldsymbol H^n=\boldsymbol H$ 。
带入中心矩阵之后，样本方差 $\boldsymbol S$ 为：
$\begin{aligned} \boldsymbol S &=\frac{1}{N} \left [ \boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)\right ] \left [\boldsymbol X^{\top}\left( \boldsymbol E-\frac{1}{N} \boldsymbol I\boldsymbol I^{\top}\right)^{\top} \right ] \\ &=\frac{1}{N} \boldsymbol X^{\top}\boldsymbol H \boldsymbol H^{\top}\boldsymbol X \\ &=\frac{1}{N} \boldsymbol X^{\top}\boldsymbol H \boldsymbol X \tag{7} \end{aligned}$

四. 协方差矩阵和散度矩阵关系

散度矩阵 $\boldsymbol S_1$ 为：
$\boldsymbol S_1=\sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{m}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{m}\right)^{\top} \tag{8}$ 其中 $\boldsymbol{m}$ 为样本均值(就是上面的 $\bar{\boldsymbol x}$ ) ： $\boldsymbol{m}=\frac{1}{N} \sum_{k=1}^{N} \boldsymbol{x}_{i}= \frac{1}{N} \boldsymbol X^{\top} \boldsymbol I \tag{9}$
我们可以发现协方差矩阵和散度矩阵相差前面一个 $\frac{1}{N}$ 。

五. PCA降维(最大投影方差角度)

一个中心：对原始特征空间的重构(相关——>无关，原始特征空间中的特征之间有可能是相关的，比如用户特征：姓名，性别，年龄，学历，学位，我们可以发现学历和学位之间正相关，这2个属性之间就是相关性的，对这些特征空间进行重构，使其能够变成一组相互正交(线性无关的基))。
两个基本点：①. 最大投影方差；②. 最小重构距离(这2个其实是同一个意思，都是为同一个中心服务的，相当于2个角度)

拿到数据之后首先进行中心化(减去均值，中心化之后数据均值为0)，就是做一个平移，方便计算。

对于 $\boldsymbol{x}_{i}$ 这个样本，中心化之后为 $\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}$ ，此时它在 $\boldsymbol u_1$ 这个方向上的投影为：
$\begin{aligned} &J=(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}})^{\top} \boldsymbol u_{1}\\ &s.t. \quad\left\| \boldsymbol u_{1}\right\|=1 \tag{10} \end{aligned}$
对于 $N$ 个样本点，投影方差(数)为：
$\begin{aligned} &J=\frac{1}{N} \sum_{i=1}^{N}\left((\boldsymbol{x}_{i}-\bar{\boldsymbol{x}})^{\top} \boldsymbol u_{1}\right)^{2} \\ &s.t. \quad \boldsymbol u_{1}^{\top}\boldsymbol u_{1}=1 \tag{11} \end{aligned}$
其中 $J$ 为：
$\begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol u_{1}^{T}\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right) \cdot\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{T} \boldsymbol u_{1} \\ &=\boldsymbol u_{1}^{T} \left [\frac{1}{N} \sum_{i=1}^{N} \left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right) \cdot\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{T} \right ] \boldsymbol u_{1} \\ &=\boldsymbol u_{1}^{T} \boldsymbol S\boldsymbol u_{1} \tag{12} \end{aligned}$
我们要求的就是一个最大投方差，其实就是一个带约束的优化问题，就是要找到这个方向 $\boldsymbol u_{1}$ ：
$\left\{\begin{array}{l} \hat{\boldsymbol u}_{1}=\argmax \boldsymbol u_{1}^{\top}\boldsymbol S \boldsymbol u_{1} \\ s.t. \quad \boldsymbol u_{1}^{\top}\boldsymbol u_{1}=1 \tag{13} \end{array}\right.$
求解使用拉格朗日乘子法：
$\mathcal{L}\left(\boldsymbol u_{1}, \lambda\right)=\boldsymbol u_{1}^{\top}\boldsymbol S \boldsymbol u_{1}+\lambda\left(1- \boldsymbol u_{1}^{\top}\boldsymbol u_{1}\right)\tag{14}$
求偏导可以得到：
$\frac{\partial \mathcal{L}}{\partial \boldsymbol u_{1}}=2\boldsymbol S \boldsymbol u_{1}-2\lambda \boldsymbol u_1\tag{15}$
令偏导数等于0可以得到：
$\boldsymbol S \boldsymbol u_{1}=\lambda \boldsymbol u_1\tag{16}$
到这里已经求解完毕，可以明显看出 $\lambda$ 就是 $\boldsymbol S$ 的特征值， $\boldsymbol u_1$ 就是 $\boldsymbol S$ 的特征向量。

六. PCA降维(最小重构距离角度)

AI大模型前沿研究

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
〖机器学习白板推导1〗样本均值&样本方差&PCA！

〖机器学习白板推导1〗样本均值&样本方差！文章目录一. 样本均值二. 样本方差三. 中心矩阵的性质本文整理自b站大神【机器学习】【白板推导系列】首先假设样本集 XN×p=(x1,…,xn)T\boldsymbol X_{N \times p}=(\boldsymbol x_{1}, \ldots, \boldsymbol x_{n})^TXN×p=(x1,…,xn)T，...
复制链接

扫一扫