机器学习----降维与度量学习（PCA）

最新推荐文章于 2023-08-01 19:24:33 发布

这题我会啊

最新推荐文章于 2023-08-01 19:24:33 发布

阅读量2.1k

点赞数 1

分类专栏： machine-learning 文章标签：机器学习 PCA 主成分分析

本文链接：https://blog.csdn.net/Love_wanling/article/details/70919713

版权

machine-learning 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

思路

主成分分析、Principal Component Analysis、PCA的推导有很多种途径，我们选择一种，容易理解的来讲解。我们的目的是降维，但是不能胡乱的降，观察下面这组数据：
这里写图片描述
我们画的是二维情况，但是具体到高维也是可以的。 $\mu$ 是我们目测一个比较好的降维之后的投影方向。但是这只是目测，我们怎么规定这个准则呢？我们规定：
投影之后样本竟可能分散，即样本方差尽可能大。
这里写图片描述

推导

样本点 $x_i$ 除了可以看成点，还可以看成一条以原点为起点， $x_i$ 点为终点的向量。样本点 $x_i$ 在坐标轴上的投影长度为：

l e n g t h = | | x i | | \cdot c o s (θ)

$l ength = ||x_i||\cdot cos(\theta)$
其中

θ $\theta$ 为向量 $\mu$ 和向量

x $\bf{x}$ 的夹角。我们带入向量内积计算公式得：
$l e n g t h = x i \cdot μ | | μ | |$ $length=\frac{x_i\cdot \mu}{||\mu||}$
令 $||\mu||=1$ ,则可以把这个长度转化成坐标，有在 $\mu$ 坐标轴上新坐标为：
$y i = x i \cdot μ = x T i μ$ $y_i=x_i\cdot \mu=x_i^{\mathop{T}}\mu$
所以在新坐标里样本方差为

1 m \sum i m (y i - y) 2

$\frac{1}{m}\sum_i^m(\bf{y_i}-\bf{y})^2$

y $\bf{y}$ 是样本均值。我们样本去均值化就方便计算（注：这步去均值化在变换前就可以实施）。所以我们的目标就是：

m a x 1 m \sum i m y i 2 = 1 m \sum i m (x i T μ) 2 = 1 m \sum i m μ T x i x i T μ = μ T (1 m \sum i m x i x i T) μ

$\begin{align} \mathop{max}　&　 \frac{1}{m}\sum_i^m\bf{y_i}^2\\ &=\frac{1}{m}\sum_{i}^{m}\bf{(x_i}^{\mathop{T}}\mu)^2\\ &=\frac{1}{m}\sum_{i}^m\mu^{\mathop{T}}\bf{x_i}\bf{x_i}^{\mathop{T}}\mu\\ &=\mu^{\mathop{T}}(\frac{1}{m}\sum_{i}^m\bf{x_i}\bf{x_i}^{\mathop{T}})\mu \end{align}$
latex这个

μ $\mu$ 实在是加粗不能，凑合看吧，它是个向量。
我把问题写清楚一点：

{m a x μ T M μ s . t . μ T μ = 1

$\begin{cases} max 　\mu^{\mathop{T}}M\mu\\ s.t.　\mu^{\mathop{T}}\mu=1 \end{cases}$
其中M当然等于

(1/m∑mixixiT) $(1/m\sum_{i}^m\bf{x_i}\bf{x_i}^{\mathop{T}})$ 啦～
用拉格朗日乘数法解决这个优化问题：

L (μ, λ) = μ T M μ - λ (μ T μ - 1)

$\mathop{L}(\mu,\lambda)=\mu^{\mathop{T}}M\mu-\lambda(\mu^{\mathop{T}}\mu-1)$

\nabla μ L = M μ - λ μ = 0

$\nabla_{\mu}L=M\mu-\lambda\mu=0$
得到

M μ = λ μ

$M\mu=\lambda\mu$
至此我们知道啦。搞了半天，

μ $\mu$ 是特征向量，

λ $\lambda$ 就是对应的特征值啊！

整理与降维

我们回到方差最大化。发现方差为：

μ T M μ = λ

$\mu^{\mathop{T}}M\mu=\lambda$
所以特征值越大，我们用对应特征向量作为坐标轴（基）变换后的样本方差也就越大。如果我们选择前k个特征值对应的特征向量，则能达到降维的目的～
降维前：

x = x 1 \cdot v 1 + x 2 \cdot v 2 + . . . + x m \cdot v m

$\mathbf{x}=x^1\cdot \mathbf{ v_1}+x^2\cdot \mathbf{ v_2}+...+x^m\cdot \mathbf{ v_m}$
降维后：

y = y 1 \cdot μ 1 + y 2 \cdot μ 2 + . . . + y m \cdot μ m

$\mathbf{y}=y^1\cdot \mathbf{ \mu_1}+y^2\cdot \mathbf{ \mu_2}+...+y^m\cdot \mathbf{ \mu_m}$
其中上标表示第几维坐标。

这题我会啊

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习----降维与度量学习（PCA）

思路主成分分析、Principal Component Analysis、PCA的推导有很多种途径，我们选择一种，容易理解的来讲解。我们的目的是降维，但是不能胡乱的降，观察下面这组数据：我们画的是二维情况，但是具体到高维也是可以的。μ\mu是我们目测一个比较好的降维之后的投影方向。但是这只是目测，我们怎么规定这个准则呢？我们规定：投影之后样本竟可能分散，即样本方差尽可能大。推导样本点
复制链接

扫一扫