【机器学习笔记】PCA降维

PCA(主成分分析)是一种常见的降维技术,用于数据压缩和可视化。它通过找到一条直线或平面来最小化投影误差,实现特征的线性变换。PCA不依赖于输出变量,适用于无标签数据集。在选择降维的维数K时,可以通过计算投影代价与总方差的比例来决定。PCA虽然能加速学习,但并不适合防止过拟合,正则化是更好的选择。
摘要由CSDN通过智能技术生成

降维

降维也是一种无监督学习问题。当有很多特征时,有一些特征会是冗余的,可以转化为更少的特征。
也可以用降维来压缩数据,减少内存空间。

一、数据压缩

在这里插入图片描述
把3维的数据,映射到一个平面上,就转化为了2维的数据。

二、可视化数据

对于一个高达50维特征的数据集,我们不能直观地去绘制图像来观察数据,这时候就可以应用降维。
这时候可以将50维->2维,那就要用这2维特征来概括50维。例如一个国家的特征由GDP、人均GDP、环境、医疗等等,那么这时用国民幸福指数就能概括人均GDP、环境、医疗等特征,这样就把很多个特征概括成了一个特征。

三、PCA主成分分析法

1、什么是PCA
在这里插入图片描述
原来是2维的数据,现在要降维,PCA就是要找到一条直线(一个向量),使得原来的点投影到这条直线上,并且使得投影距离的平方和最小
这个投影距离的平方和也可以称为:投影误差。(就是点到直线距离的平方和)
另外的,对于3D空间,就要找到一个平面(用两个向量表示)来投影。
在这里插入图片描述
那么,PCA和线性回归是不一样的,虽然在2维的情况下也是找一条直线去拟合。
但是,两者的最小化目标不同。
在这里插入图片描述
线性回归最小化的是垂直距离,也就是纵坐标的差。
PCA最小化的是点到直线的距离
此外,线性回归有y的概念,也就是输出。而PCA中,没有y,全是特征x1,x2…xn。

2、如何实现PCA
1)数据预处理
数据: x 1 x^1 x1 x 2 x^2 x2 x 3 x^3 x3、…、 x m x^m xm
要对数据进行均值标准化。
μ j = 1 m ∑ m = 1 m x j i {\mu}_j = {\frac{1}{m}}{\sum_{m=1}^m {x}_{j}^{i}}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值