目录
1 PCA降维
随着社会的飞速发展,我们已经在分析问题或者解决问题时,经常会遇到大数据集。高维度的大数据集处理起来并非易事,不但会占用大量的资源,而且也会导致计算机运行缓慢。
一个自然的想法是,能不能删除了某一部分数据,而留下剩下的数据?这样会使得数据的复杂度降低,从而节省时间和资源,答案是肯定的。但是又会有新的一个问题出现,这样的删除是不是随意的呢?
当然不是,我们在删除的时候应该要尽可能地保留原始数据的信息,即减少因部分特征删除而导致的信息损失。考虑到大数据集的各个特征维度之间有些并不是相互独立的,有些特征具有一定的相关性。我们相信,删除与所保留特征相关性较高的数据特征,并不会造成原始数据信息的大量丢失。
例如,某电商平台的店铺数据有“浏览量”、“访问量”、“下单量”、“成交量”。“浏览量”与“访问量”并不是独立的,“浏览量”大时,我们相信“访问量”也大,“下单量”大时,“成交量”也大。当我们删除“访问量”和“成交量”这两个特征数据时,我们坚信,这样原始数据信息的损失是很小的。
因此,PCA要做的事儿就是要在以下两个方面之间做一个平衡:a.降低原始大数据集的维度(复杂度降低了);b.使得降维后的数据集,在原来大数据集的基础上损失的信息尽可能的小。
PCA降维的应用非常广泛,它结合判别分析、聚类和回归分析等等可以解决许多实际问题。在机器学习和数据挖掘的实践中应用主要体现在以下几个方面:
(1)实现数据可视化。我们生存的物理空间是三维空间,任何三维以上的数据我们靠视觉是无法感知的。将高维数据降到低维,使得数据可视化,方便我们洞察数据背后所蕴藏的规律。
(2)缓解过拟合。特征维度越大,以为这特征越多,模型就越复杂,越容易过拟合。通过降低维度,缓解过拟合。
(3)提高计算性能。高维数据不仅占用过多的储资源, 而且由于维度较高导致计算的复杂度不断上升。因此,可以通过PCA降维节约储存资源和计算资源,提高计算性能。
2 在讲PCA降维的原理前需要知道的一些东西
2.1 方差
方差和标准差是最常用来度量一组数据最常用的指标。其实,在高中的时候我们就以及熟知以下公式:
均值:
方差:
标准差:
方差和标准差能够很好地描述一组数据的分布情况:如果一组数据越“挨的紧”或者越“拥挤”,这组数据的方差和标准差就越小。反之,越“远”或越“分散”,那么这组数据的方差和标准差就越大。
例如,有两组数据:[8,12,9,10,11,8,12]和[6,1,7,11,13,15,17],虽然两组数据的均值都是10,但是前者的方差为3,后者的方差为31.66667。这也就是说前一组数据分布得较为“拥挤”,后一组数据分布得较为“分散”。
2.2 协方差及协方差矩阵
协方差度量的是特征与特征之间的关系。
例如我们收集到某地居民的身高,年龄,体重,胸宽,臂长的数据信息。对于这样的数据集,我们可以分别独立地计算出每一个特征数据的方差,但是我们如果还想知道这些特征之间的关系,就需要计算协方差。
对于都含有个数据的两组数据和,这两组数据的协方差计算公式为:
协方差所刻画的是,两个变量在变化的过程中变化方向的一致性和变化大小的程度。
若变大也变大,即两个变量是同向变化的,此时协方差为正;反之为负。两者的变化趋势相互独立的时候,协方差为0。
方差主要是针对一维数据,协方差主要针对二维数据,那么多维数据的这种关系如何刻画呢?这个时候,协方差矩阵出场了。
协方差矩阵就是用来来那个多特征的两两之间协方差的矩阵。一般地,设有个特征,记为,那么这个特征的协方差矩阵为:
由可知,协方差矩阵为实对称矩阵。再注意到,一组数据与它本身的协就是该组数据的方差,故协方差矩阵的主对角元分别是各个特征的方差。
2.3 向量在不同基下的坐标
基是线性空间的一个基本概念,其特点体现在以下两个方面:a.组成基的向量组线性无关;b.线性空间中的任何一个向量都可以由基线性表出。基是线性空间构成的基础,也就是说,基一旦确定了,那么线性空间也就确定了。
线性空间大家也不用想复杂了,就是一些向量构成的集合。
例如,这个向量实际上是处于,这组标准正交基(标准:每个向量模长都为1,正交:垂直/内积为0)所张成的空间中。在轴上的投影,实际上就是与的内积值,即该投影值为。同样,在轴上的投影就是与的内积,即该投影值为。
上述的向量投影可以写成矩阵向量相乘的形式:
。
那么选择的基不同,相应向量的坐标也自然会不同。例如,如果选择两个标准正交向量和作为基,那么这个向量在这两个向量所张成的空间中的坐标可以这样来考虑:
在向量上的投影是两者的内积。同样地,在向量上的投影为,即向量在上述两向量做为基张成的空间中的坐标为。写成矩阵的形式就是:
。
现在将上述结果推广到维的空间中:
对于任意维空间中的向量,可以理解成其位于以个标准正交向量为基底所张成的空间中,且其坐标分量就是其分别在这个维的标准正交向量上的投影值。可写成矩阵与向量相乘的形式:
。
所以,我们如果想将任意一个向量变换到一个由个维的标准正交基向量所组成的新空间中,只需要将这()个维的标准正交基向量以行向量的形式做成一个矩阵,然后将矩阵左乘向量的原坐标即可得到在新空间中的坐标。
2.4 矩阵乘法
在上面,我们说到对于任意一个向量,要将其变换到以指定个数的标准正交向量的新空间中,只要将指定个数(比如指定个数为)的这些维的标准正交向量以行向量作成矩阵的样子,记为,拿这个东西左乘可以了。
比如说,这个维的标准正交向量我们记为(这这些都是列向量),那么要得到在这组基张成的空间中的坐标,就可以这样来计算:
(注意:内积本质是一个实数)
上面仅仅知识针对一个向量作换,受到上述的启示我们容易发现,如果不止一个向量作变换,而是有个向量也想作变换:
其中是标准正交的列向量,是对应的行向量,表示第个基向量();表示的是第个需要变换的列向量()。
我们在面对大数据集的时候,其实我们可以将数据集看作一个矩阵。这里,是一个不超过的正数,决定了通过降维以后得到的维度,即可以将维的数据变换到更低维的空间中,变换后的维度取决于正整数。所以,矩阵相乘也可以表示降维变换。
通过上面的表述来看,矩阵相乘的几何意义就是:当左端矩阵行满秩时,两个矩阵相乘的结果就是将右端矩阵的列向量变换到左端矩阵的行向量为基底的新空间中。
2.5 矩阵的特征值和特征向量
特征值和特征向量是矩阵(或线性变换)的重要概念之一,有许多广泛的应用。
阶方阵的特征值和特征向量定义如下:
若有非零向量,使得,则称为的特征值,称为属于特征值的特征向量。
这里有2个重要的定理需要知道:(证明这里就不说了,相关内容可查线性代数的有关资料)
Theorem1:不同特征值的特征向量线性无关。
Theorem2:不用特征值的特征向量一定正交(内积为0)。
先知道这个东西是非常有必要的,因为降维的时候,低维的新空间的基其实就是原数据集矩阵去零均值化的矩阵的单位正交特征向量。此时此刻,你一定很好奇,先别急,继续往下看。
2.6 实对称矩阵正交相似于对角矩阵
上面说到了阶方阵的特征值和特征向量,如果级矩阵有个不同的特征值,分别记为,那每一个特征值都有一个特征向量,故有个特征向量,对应地分别记为,那么根据特征值特征向量的定义,必然有,,写成矩阵乘积的样子,就是
,
而根据Theorem1,线性无关,故矩阵满秩(可逆),记为,故上述式子可以写成
。
对于实对称矩阵,它有较好的性质,定理表述如下:
Theorem3:设是级实对称矩阵,是的实对称矩阵,则必存在正交矩阵使得:
,
其中满足:,也就说,上述的列向量是由的个单位特征向量构成的矩阵。
关于上述定理的证明此处就不在给出,想了解给多的读者可查询线性代数有关资料。
3 PCA降维的核心思想
(1)核心思想一:基变换向量投影
对于任何一个维的向量,如果要想将它投影到低维()的空间中,我们可以利用维空间的一组标准正交基以行向量的形式组成的矩阵,然后将左乘向量即可得到投影结果。
刚刚说的只是单个维向量的情况,那如果是多个维向量也想降维,我们也可以作同样的处理,设降到低维目标空间的标准正交基分别是,那么降维处理如下进行:
所得结果的矩阵中,每一个列向量都是降维后的结果,也就是投影到低维目标空间中的结果。
(2)核心思想二:协方差归零投影
我们作数据降维,希望将原始数据的特征维度降低,同时又要尽可能的减少原始数据的信息损失。要在上述两点之间找到一个平衡点可不是意见容易的事儿。
仔细想一想,降维后的数据应该具备这样的特点:
各个维度之间的关联度尽可能的低,因为有关联的每一个组,我们只希望留下一个,其余的删除以降低数据集的复杂度。从协方差上来看,也就是降维后的特征两两之间的协方差为0是最好的,即降维后的数据集其协方差矩阵非对角上的元素全为0,这样的降维投影才是我们想要的。
(3)核心思想三:最大方差投影
我们平时对三维空间的物体拍照时,实际上就是将三维空间的物体投影到二维空间。我们先来观察一组拍摄笔筒的照片:
图3-1
笔筒是三维空间中的立体,照片是二维空间中的平面,从立体到平面的过程中肯定会失真(丢失信息),但是,不同的投影方式(拍摄角度)失真的程度不相同。如图3-1,三张图片都是拍摄同一个笔筒,但是由于拍摄角度的不同,第三张图片最大程度地保留了三维空间中笔筒的“重要信息”。
同理,我们在对数据作降维处理的时候,希望投影的方式能够使得降维后的数据尽可能的“分散”,这样可以使得我们尽可能地减小由于降维带来的信息损失,也就说,希望各个特征数据的方差尽可能地大。
4 PCA降维的原理
对数据作投影变换,实际上就是要找到要变换到一组目标新空间的标准正交基,将其以行向量作成一个矩阵,然后左乘数据矩阵即可实现降维,问题的关键在于,如何根据已知的大数据集和和需要降到的新空间的维度去找到这样的矩阵。
这里我们需要特别注意的是,我们要删除的是部分特征数据,根据前面所讲的基变换向量投影的原理,我们最后降下来的是原来数据集的行特征。因此,左乘矩阵相当于减少了原来数据集的行特征。如果我们要删除的列特征,那就用的转置右乘数据集矩阵或者用左乘数据集矩阵的转置即可。
下面讨论如何按照要求找的问题:
4.1 PCA降维具体例子示范
在这之前,先以一个具体例子来说明,下表(表4-1)是摘自于2021年举行的“华为杯”研究生数学建模竞赛B题的数据中的监测点A的污染物浓度,包含6个特征数据,共有9个数据样本。
表4-1
监测日期 | SO2监测浓度(μg/m³) | NO2监测浓度(μg/m³) | PM10监测浓度(μg/m³) | PM2.5监测浓度(μg/m³) | O3最大八小时滑动平均监测浓度(μg/m³) | CO监测浓度(mg/m³) |
2021/4/1 | 2 | 12 | 25 | 7 | 51 | 0.6 |
2021/4/2 | 4 | 17 | 29 | 12 | 61 | 0.7 |
2021/4/3 | 7 | 25 | 40 | 18 | 88 | 0.8 |
2021/4/4 | 4 | 25 | 49 | 21 | 47 | 1 |
2021/4/5 | 4 | 32 | 52 | 28 | 67 | 1.1 |
2021/4/6 | 6 | 43 | 82 | 49 | 259 | 1.2 |
2021/4/7 | 4 | 23 | 48 | 27 | 122 | 0.9 |
2021/4/8 | 3 | 36 | 33 | 15 | 67 | 0.9 |
2021/4/9 | 4 | 41 | 35 | 18 | 51 | 1.1 |
原数据集有6个特征数据,现在希望能够降到3维,
为了方便计算展示,将特征数据零均值化(每一个污染物浓度数据减去对应污染物浓度数据值)如表4-2所示:
表4-2
SO2监测浓度(μg/m³) | NO2监测浓度(μg/m³) | PM10监测浓度(μg/m³) | PM2.5监测浓度(μg/m³) | O3最大八小时滑动平均监测浓度(μg/m³) | CO监测浓度(mg/m³) |
-2.22222 | -16.2222 | -18.6667 | -14.6667 | -39.3333 | -0.32222 |
-0.22222 | -11.2222 | -14.6667 | -9.66667 | -29.3333 | -0.22222 |
2.777778 | -3.22222 | -3.66667 | -3.66667 | -2.33333 | -0.12222 |
-0.22222 | -3.22222 | 5.333333 | -0.66667 | -43.3333 | 0.077778 |
-0.22222 | 3.777778 | 8.333333 | 6.333333 | -23.3333 | 0.177778 |
1.777778 | 14.77778 | 38.33333 | 27.33333 | 168.6667 | 0.277778 |
-0.22222 | -5.22222 | 4.333333 | 5.333333 | 31.66667 | -0.02222 |
-1.22222 | 7.777778 | -10.6667 | -6.66667 | -23.3333 | -0.02222 |
-0.22222 | 12.77778 | -8.66667 | -3.66667 | -39.3333 | 0.177778 |
#上述计算过程的代码:
import pandas as pd
import numpy as np
data=pd.read_excel('F:\\研究生生涯\\基于Python的机器学习实践\\Python统计建模——多元分析\\主成分分析\\监测点A的污染物浓度.xlsx')
data1=data.iloc[:,2:8] #提取特征数据
print(data1)
y=data1.mean(axis=0)
new_data=data1-y
print(new_data)
new_data.to_excel('F:\\研究生生涯\\基于Python的机器学习实践\\Python统计建模——多元分析\\主成分分析\\new_data1.xlsx',index=False)
将上述经过零均值化的数据记为矩阵,
第一步,计算的6个列向量(各污染物浓度,分别是)的协方差矩阵:
利用程序计算得到A的列向量的协方差矩阵为:
[[2.19444444e+00 5.56944444e+00 1.42083333e+01 9.95833333e+00
5.40416667e+01 1.06944444e-01]
[5.56944444e+00 1.11694444e+02 1.05458333e+02 8.27083333e+01
3.33666667e+02 1.85694444e+00]
[1.42083333e+01 1.05458333e+02 2.94000000e+02 2.06500000e+02
9.92500000e+02 2.60833333e+00]
[9.95833333e+00 8.27083333e+01 2.06500000e+02 1.49500000e+02
7.28625000e+02 1.92083333e+00]
[5.40416667e+01 3.33666667e+02 9.92500000e+02 7.28625000e+02
4.54725000e+03 6.45416667e+00]
[1.06944444e-01 1.85694444e+00 2.60833333e+00 1.92083333e+00
6.45416667e+00 3.94444444e-02]]
#程序代码:
Cov=new_data.cov()
Cov_mat=np.mat(Cov) #转化为矩阵
print(Cov_mat)
第二步,计算上述协方差矩阵的特征值和特征向量:
特征值: [4.91534585e+03 1.33082140e+02 5.29262797e+01 1.96958266e+00 1.35401494e+00 4.69063054e-04]
单位特征向量(按列):
[[-0.0115945 0.01982138 -0.00887949 0.44895534 0.89318819 0.00691333]
[-0.07419199 0.63756657 0.75938908 0.09150018 -0.05347679 -0.01002928]
[-0.21512829 0.59755921 -0.59197066 0.43419812 -0.2401709 -0.00186604]
[-0.15753526 0.41548756 -0.24453222 -0.77527456 0.37611186 -0.01568266]
[-0.96086494 -0.2513976 0.11409595 0.01743293 -0.01453903 0.00215488]
[-0.00146569 0.01443296 0.0024926 -0.01357453 -0.00122989 0.99979875]]
#计算的程序代码为
eige,feat=np.linalg.eig(Cov_mat)
print('特征值:',eige)
print('单位特征向量(按列):',feat)
现在我们希望降到3维,那我们就选择特征值按照从大到小排序的前三个特征值所对应的三个单位特征向量以列向量作成矩阵右乘矩阵即可实现降维。
最大的三个特征值分别为:4915.345846940669, 133.08213998288508, 52.92627974504706,即前三个特征向量,
第一个特征值4915.345846940669对应的特征向量为:
[[-0.0115945 ]
[-0.07419199]
[-0.21512829]
[-0.15753526]
[-0.96086494]
[-0.00146569]]
第二个特征值133.08213998288508对应的特征向量为:
[[ 0.01982138]
[ 0.63756657]
[ 0.59755921]
[ 0.41548756]
[-0.2513976 ]
[ 0.01443296]]
第三个特征值52.92627974504706对应的特征值为:
[[ 0.01982138]
[ 0.63756657]
[ 0.59755921]
[ 0.41548756]
[-0.2513976 ]
[ 0.01443296]]
#抽取特征值的程序:
f1=feat[:,0]
f2=feat[:,1]
f3=feat[:,2]
print('f1:',f1)
print('f2:',f2)
print('f2:',f2)
第三步,矩阵相乘实现降维:
将上述的三个单位特征列向量就以列的形式作成矩阵,得到的是一个6行3列的矩阵,如:
=[[-0.0115945 0.01982138 -0.00887949]
[-0.07419199 0.63756657 0.75938908]
[-0.21512829 0.59755921 -0.59197066]
[-0.15753526 0.41548756 -0.24453222]
[-0.96086494 -0.2513976 0.11409595]
[-0.00146569 0.01443296 0.0024926]]
#程序代码:
Q=feat[:,0:3]
print(Q)
然后将右乘矩阵即可实现降维:
[[ 45.35006284 -17.75139542 -2.15123174]
[ 33.6989285 -12.56877783 -0.82138033]
[ 3.81548648 -5.12899626 0.32906309]
[ 40.83667895 11.74622317 -10.38306642]
[ 19.351758 15.88377111 -6.27281217]
[-175.73584671 1.32176622 1.07508344]
[ -31.80974419 -6.48980673 -4.22012044]
[ 25.20227352 1.65636615 11.19948665]
[ 39.2904026 11.33084959 11.24497794]]
#计算的程序代码:
A=np.mat(new_data) #dataframe转化成为矩阵,以便于实现矩阵乘法运算
result=A*Q
print(result)
综合来看,PCA数据降维的过程可以按照如下步骤进行:
1.计算原矩阵的协方差矩阵C;
2.计算协方差矩阵C的特征值和特征向量;
3.选择最大的个特征值对应的特征向量组成降维矩阵;
4.将降维矩阵乘矩阵即可实现PCA降维。
下面来看究竟是为什么?我们要这样做:
4.2 PCA降维原理分析
从上面我们已经知道,对大数据集作降维变换的实质就是找到一个矩阵与原矩阵(零均值化的数据与原数据在信息上是等价的)作矩阵乘法即可实现降维。
设是方阵(先不考虑降维),记。是的原数据零均值化的矩阵,是矩阵,是矩阵相乘的结果(或者线性变换的结果),是矩阵,我们应该按照我们降维的要求去寻找降维矩阵。
计算矩阵乘积的结果的协方差矩阵:
由于,故
即。是的个列特征的协方差矩阵,不要忘了协方差矩阵是对角矩阵!
我们说,降维后,应该数据特征尽量相关性低,或者不具有相关性,这个样子是最好的。什么意思?也就是说,不同特征的协方差希望是0,这个时候达到的效果最好。从协方差矩阵的角度来看,就是说的协方差矩阵是对角矩阵的话就非常完美了。
的协方差矩阵,回忆前述的Theorem3,要使得为对角矩阵,那只要是的个单位特征向量以列组成的正交矩阵即可。不妨设的特征值分别是,对应的单位特征向量分别是,那么写出来写出就是
另外还有一个要求:投影(降维)了以后,留下的各个特征自己要尽量“分散”,不要太“拥挤”,这样可以在最大程度上减少由于数据降维带来的信息损失,意思是每一个降维后留下的特征数据方差尽量大,而降维后每一个特征的方差就体现在协方差矩阵的对角线上。
所以,如果我们想将原数据集的行向量降成维(剔除部分在列位置上的特征数据),那么挑最大的个特征值对应的特征向量组成降维矩阵,拿去右乘原矩阵即可实现降维。
比如说,最大的个特征值是,对应的特征向量分别是,,那么降维矩阵就应该长成这样:
然后将拿去右乘:
得到降维后的数据矩阵,
显然,的协方差矩阵就是
得到的这个数据,实现了在降低大数据集的复杂度的同时,也最大程度上地减少了由于数据特征减少而带来的信息损失。其实质就是将数据的行向量投影到,以特征数据协方差矩阵的最大的个特征值对应的特征向量为基底的空间中。
我们可以总结一下PCA降维的步骤:
a.计算原矩阵的协方差矩阵;
b.计算的特征值特征向量;
c.拎出的()个最大的特征值对应的特征向量;
d.将这个特征向量单位化了以后按列作成降维矩阵;
e.最后拿去右乘原矩阵即可。
好啦,接下来我们用Python的机器学习sklearn库来进行PCA降维的示范:
5 Python实现PCA降维
为了方便,采用sklearn库中自带的鸢尾花数据集(iris)来进行PCA算法的实现:
该数据集共有150个样本数据,每一个样本都有4个特征,分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度,即该数据集的特征维度是4维的,有3类对鸢尾花分类的标签。
那么这些特征数据是否存在数据冗余?或者说怎么样合理地降低该数据集的特征维度?这里我们可以用PCA降维的方法来对鸢尾花数据集进行降维处理,从而熟悉PCA降维的原理和效果。因此,我们的目标就是,利用PCA降维的方法对鸢尾花的特征数据(4维)进行降维。
导入需要用的包:
#导入需要的包
from sklearn import datasets,decomposition
import numpy as np
import matplotlib.pyplot as plt
加载数据集并提取特征数据
iris=datasets.load_iris()
data=iris.data
查看数据维度情况:
print(data[0:5])
运行结果:
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]]
说明原数据的确是4维的。
根据方差(线性变换后数据的特征值)的占比情况确定合适的降维维度:
exv=pca.explained_variance_ratio_ #计算可解释方差占比
print('方差占比情况:',exv)
运行结果:方差占比情况: [0.92461872 0.05306648 0.01710261 0.00521218]
从结果来看,前两个特征比较显著,因此可以考虑降为2维:
new_pca=decomposition.PCA(n_components=2) #设置k=2
new_pca.fit(data) #训练数据
new_data=new_pca.transform(data) #返回降维后的数据
print(new_data[0:5])
运行结果:
[[-2.68412563 0.31939725]
[-2.71414169 -0.17700123]
[-2.88899057 -0.14494943]
[-2.74534286 -0.31829898]
[-2.72871654 0.32675451]]
结果表明,的确从4维降到了2维。
print('降维后各个主成分的方差大小:',new_pca.explained_variance_)
print('降维后各个主成分的方差占比大小:',new_pca.explained_variance_ratio_)
运行结果:
降维后各个主成分的方差大小: [4.22824171 0.24267075]
降维后各个主成分的方差占比大小: [0.92461872 0.05306648]
好啦,就说到这里,望各位大佬指教!