PCA(Principal Components Analysis)

资料领取 | 干货分享 | 欢迎来访 >>>>>> 个人博客主页(戳我)

一、定义符号

主成分分析(Principal Components Analysis, PCA)是一种降维方法。为了更好的解释该算法,首先假设数据集为 { x ( i ) ; i = 1 , 2 , … , m } \{x^{(i)}; i=1,2, \dots, m\} { x(i);i=1,2,,m},其中 x ( i ) ∈ R n x^{(i)} \in \mathbb {R}^n x(i)Rn,也就是说数据集一共包含 m 条数据,每条数据的特征向量的维度为 n。

二、中心化和标准化

中心化又叫零均值化,中心化(零均值化)后的数据均值为零。下面两幅图是数据做中心化前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0, 0)。

在这里插入图片描述

数据标准化的目的就是使各个特征都在同一尺度下被衡量。

三、Z-score 标准化

Z-score 标准化(也叫 0-1 标准化),这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为 0,标准差为 1。Z-score 标准化的公式如下:

x ∗ = x − μ σ x^{*} = \frac{x - \mu}{\sigma} x=σxμ

我们可以发现 Z-score 标准化的过程中是包含中心化的。以下图片展示了一组数据进行 Z-score 标准化的过程。左图表示的是原始数据,中间的是中心化后的数据,右图是将中心化后的数据除以标准差,得到的标准化后的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
在这里插入图片描述

想要使用 PCA 算法,需要先对数据做以下处理:

  1. μ = 1 m ∑ i = 1 m x ( i ) \mu = \frac{1}{m} \sum_{i=1}^{m} x^{(i)} μ=m1i=1mx(i)
  2. x ( i ) = x ( i ) − μ x^{(i)} = x^{(i)} - \mu x(i)=x(i)μ
  3. σ j 2 = 1 m ∑ i ( x j ( i ) ) 2 \sigma_j^2 = \frac{1}{m} \sum_i(x_j^{(i)})^2 σj2=
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值