降维
降维也是一种无监督学习问题。当有很多特征时,有一些特征会是冗余的,可以转化为更少的特征。
也可以用降维来压缩数据,减少内存空间。
一、数据压缩
把3维的数据,映射到一个平面上,就转化为了2维的数据。
二、可视化数据
对于一个高达50维特征的数据集,我们不能直观地去绘制图像来观察数据,这时候就可以应用降维。
这时候可以将50维->2维,那就要用这2维特征来概括50维。例如一个国家的特征由GDP、人均GDP、环境、医疗等等,那么这时用国民幸福指数就能概括人均GDP、环境、医疗等特征,这样就把很多个特征概括成了一个特征。
三、PCA主成分分析法
1、什么是PCA
原来是2维的数据,现在要降维,PCA就是要找到一条直线(一个向量),使得原来的点投影到这条直线上,并且使得投影距离的平方和最小。
这个投影距离的平方和也可以称为:投影误差。(就是点到直线距离的平方和)
另外的,对于3D空间,就要找到一个平面(用两个向量表示)来投影。
那么,PCA和线性回归是不一样的,虽然在2维的情况下也是找一条直线去拟合。
但是,两者的最小化目标不同。
线性回归最小化的是垂直距离,也就是纵坐标的差。
PCA最小化的是点到直线的距离。
此外,线性回归有y的概念,也就是输出。而PCA中,没有y,全是特征x1,x2…xn。
2、如何实现PCA
1)数据预处理
数据: x 1 x^1 x1、 x 2 x^2 x2、 x 3 x^3 x3、…、 x m x^m xm
要对数据进行均值标准化。
μ j = 1 m ∑ m = 1 m x j i {\mu}_j = {\frac{1}{m}}{\sum_{m=1}^m {x}_{j}^{i}}