主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。
PCA的本质就是找一些投影方向,使得数据在这些投影方向上的方差最大,而且这些投影方向是相互正交的。这其实就是找新的正交基的过程,计算原始数据在这些正交基上投影的方差,方差越大,就说明在对应正交基上包含了更多的信息量。后面会证明,原始数据协方差矩阵的特征值越大,对应的方差越大,在对应的特征向量上投影的信息量就越大。反之,如果特征值较小,则说明数据在这些特征向量上投影的信息量很小,可以将小特征值对应方向的数据删除,从而达到了降维的目的。
PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。
因此,关键点就在于:如何找到新的投影方向使得原始数据的“信息量”损失最少?
1.样本“信息量”的衡量
样本的“信息量”指的是样本在特征方向上投影的方差。方差越大,则样本在该特征上的差异就越大,因此该特征就越重要。以《机器学习实战》上的图说明,在分类问题里,样本的方差越大,越容易将不同类别的样本区分开。
图中共有3个类别的数据,很显然,方差越大,越容易分开不同类别的点。样本在X轴上的投影方差较大,在Y轴的投影方差较小。方差最大的方向应该是中间斜向上的方向(图中红线方向)。如果将样本按照中间斜向上的方向进行映射,则只要一维的数据就可以对其进行分类,相比二维的原数据,就相当降了一维。
在原始数据更多维的情况下,先得到一个数据变换后方差最大的方向,然后选择与第一个方向正交的方向,该方向是方差次大的方向,如此下去,直到变换出与原特征个数相同的新特征或者变换出前N个特征(在这前N个特征包含了数据的绝大部分信息),简而言之,PCA是一个降维的过程,将数据映射到新的特征,新特征是原始特征的线性组合。
2.计算过程(因为插入公式比较麻烦,就直接采用截图的方式)
在PCA的实现过程中,对协方差矩阵
做奇异值分解
时,能得到S矩阵(特征值矩阵)。
实际使用
用sklearn封装的PCA方法,做PCA的代码如下。PCA方法参数n_components,如果设置为整数,则n_components=k。如果将其设置为小数,则说明降维后的数据能保留的信息。
from sklearn.decomposition import PCA
import numpy as np
from sklearn.preprocessing import StandardScaler
x=np.array([[10001,2,55], [16020,4,11], [12008,6,33], [13131,8,22]])
X_scaler = StandardScaler()
x = X_scaler.fit_transform(x)
pca = PCA(n_components=0.9)
pca.fit(x)
pca.transform(x)
所以在实际使用PCA时,我们不需要选择k,而是直接设置n_components为float数据。
总结
PCA主成分数量k的选择,是一个数据压缩的问题。通常我们直接将sklearn中PCA方法参数n_components设置为float数据,来间接解决k值选取问题。
但有的时候我们降维只是为了观测数据(visualization),这种情况下一般将k选择为2或3。
参数说明:
n_components:
意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n
类型:int 或者 string,缺省时默认为None,所有成分被保留。
赋值为int,比如n_components=1,将把原始数据降到一个维度。
赋值为string,比如n_components='mle',将自动选取特征个数n,使得满足所要求的方差百分比。
copy:
类型:bool,True或者False,缺省时默认为True。
意义:表示是否在运行算法时,将原始训练数据复制一份。若为True,则运行PCA算法后,原始训练数据的值不 会有任何改变,因为是在原始数据的副本上进行运算;若为False,则运行PCA算法后,原始训练数据的 值会改,因为是在原始数据上进行降维计算。
whiten:
类型:bool,缺省时默认为False
意义:白化,使得每个特征具有相同的方差。关于“白化”,可参考:Ufldl教程
2、PCA对象的属性
components_ :返回具有最大方差的成分。
explained_variance_ratio_:返回 所保留的n个成分各自的方差百分比。
n_components_:返回所保留的成分个数n。
mean_:
noise_variance_:
3、PCA对象的方法
fit()可以说是scikit-learn中通用的方法,每个需要训练的算法都会有fit()方法,它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法,此处y自然等于None。
fit(X),表示用数据X来训练PCA模型。
函数返回值:调用fit方法的对象本身。比如pca.fit(X),表示用X对pca这个对象进行训练。
newX=pca.fit_transform(X),newX就是降维后的数据。
将降维后的数据转换成原始数据,X=pca.inverse_transform(newX)
将数据X转换成降维后的数据。当模型训练好后,对于新输入的数据,都可以用transform方法来降维。
此外,还有get_covariance()、get_precision()、get_params(deep=True)、score(X, y=None)等方法,以后用到再补充吧。
3.python实现
下面介绍Sklearn中PCA降维的方法。
导入方法:
- from sklearn.decomposition import PCA
调用函数如下,其中n_components=2表示降低为2维。
- pca = PCA(n_components=2)
例如下面代码进行PCA降维操作:
- import numpy as np
- from sklearn.decomposition import PCA
- X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
- pca = PCA(n_components=2)
- print pca
- pca.fit(X)
- print(pca.explained_variance_ratio_)
输出结果如下所示:
- PCA(copy=True, n_components=2, whiten=False)
- [ 0.99244291 0.00755711]
再如载入boston数据集,总共10个特征,降维成两个特征:
-
- from sklearn.datasets import load_boston
- d = load_boston()
- x = d.data
- y = d.target
- print x[:10]
- print u'形状:', x.shape
-
-
- import numpy as np
- from sklearn.decomposition import PCA
- pca = PCA(n_components=2)
- newData = pca.fit_transform(x)
- print u'降维后数据:'
- print newData[:4]
- print u'形状:', newData.shape
输出结果如下所示,降低为2维数据。
- [[ 6.32000000e-03 1.80000000e+01 2.31000000e+00 0.00000000e+00
- 5.38000000e-01 6.57500000e+00 6.52000000e+01 4.09000000e+00
- 1.00000000e+00 2.96000000e+02 1.53000000e+01 3.96900000e+02
- 4.98000000e+00]
- [ 2.73100000e-02 0.00000000e+00 7.07000000e+00 0.00000000e+00
- 4.69000000e-01 6.42100000e+00 7.89000000e+01 4.96710000e+00
- 2.00000000e+00 2.42000000e+02 1.78000000e+01 3.96900000e+02
- 9.14000000e+00]
- [ 2.72900000e-02 0.00000000e+00 7.07000000e+00 0.00000000e+00
- 4.69000000e-01 7.18500000e+00 6.11000000e+01 4.96710000e+00
- 2.00000000e+00 2.42000000e+02 1.78000000e+01 3.92830000e+02
- 4.03000000e+00]
- [ 3.23700000e-02 0.00000000e+00 2.18000000e+00 0.00000000e+00
- 4.58000000e-01 6.99800000e+00 4.58000000e+01 6.06220000e+00
- 3.00000000e+00 2.22000000e+02 1.87000000e+01 3.94630000e+02
- 2.94000000e+00]]
- 形状: (506L, 13L)
- 降维后数据:
- [[-119.81821283 5.56072403]
- [-168.88993091 -10.11419701]
- [-169.31150637 -14.07855395]
- [-190.2305986 -18.29993274]]
- 形状: (506L, 2L)