非监督学习1—PCA降维原理

1. 降维

∙ \bullet 降维:将原始高维数据降维到低维空间,这个低维空间也被称为嵌入空间
   ∙ \bullet 原始的高维数据存在冗余
   ∙ \bullet 数据的本质维度(intrinsic dimension)很低
   ∙ \bullet 例:手写数字
      ∙ \bullet 原始特征:28 * 28 = 784
      ∙ \bullet 本质维度:方向、风格
     在这里插入图片描述  将数据进行降维或压缩后,希望结果能表示数据变化的本质维度。好处:1、得到数据的本质表示,可以更好的对数据进行解释;2、如果要对降为后的数据用机器学习进行学习,维度降低了,模型学习需要的参数也少了;3、需要的存储量和计算资源都会变少。

2.降维技术

在这里插入图片描述
  t-NSE,主要是关注原始特征的局部结构,单也能通过t分布兼顾全局特征。

3.主成分分析

∙ \bullet 主成分分析(Principal Components Analysis, PCA)是由Hotelling于1933年首先提出,亦被称为Karhunen-Loeve变换(KTL)(e上边有个二声符号)、KL变换、Hotelling变换。
∙ \bullet PCA是最常用的线性降维方法,通过线性投影,将高维数据映射到低维的空间,并期望在所投影的维度上数据的方差最大,以使用较少的数据维度,保留较多的原始数据点的特性。
∙ \bullet 下列二者等价:
  1)投影后的方差最大
  2)最小化重构平方误差
投影方差最大,表示数据在这一维度的变化很大,蕴含的信息最多。PCA能同时达到以上二者等价的两个目标,所以叫二者等价

4.原始数据

在这里插入图片描述
右边是左边数据在直角坐标系的分布。

5.坐标旋转

考虑可逆变换: θ = A x \theta = A\mathbf x θ=Ax
在这里插入图片描述
这是将一个点转换到另外一个坐标系的例子。原坐标系的点表示是X,新坐标系的点表示是 θ \theta θ θ 0 \theta_0 θ0跟y=2.5x这条直线同向, θ 1 \theta_1 θ1则是与这条线垂直的方向,矩阵A是旋转矩阵,旋转矩阵是正交的,转换通过上边的式子完成,角度 ϕ \phi ϕ应该是原坐标系中y=2.5x这条直线与x轴的夹角。

6.变换后的序列

在这里插入图片描述

7.降维

∙ \bullet 抛弃坐标第二维,维度可降低50%
∙ \bullet 重构序列在这里插入图片描述
注意:重构是对两个维度都重构了,而不是一个维度

8.误差分析

{ x ^ i } ≡ 重构序列 \{\hat x_i\} \equiv 重构序列 {x^i}重构序列

   ∑ \sum 的那个等式,左边是重构回原始空间的重构残差,右边应是在新空间丢弃某些维度之后的残差(还是不确定右边这个式子意义)。 θ ^ i \hat \theta_i θ^i冒,看起来i表示的是维度,这里已经不是2维,otherwise表示的是1、3、5等被抛弃的维度。看起来 θ i \theta_i θi,应该是抛弃维度之前的值。

9.PCA算法

∙ \bullet 给定数据集{ x 1 , . . . , x n x_1,...,x_n x1,...,xn},计算协方差矩阵 ∑ \sum 在这里插入图片描述
要复习一下协方差,及协方差矩阵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值