1. 纬度
纬度是数据集中特征的数量。
2. 降维
降维是对给定数据集进行(特征)降维的过程。也就是说,如果数据集有100列/特性,并将列数减少到了20-25列。
2.1 降维的好处
随着特征数量的增加,数据点的数量也会成比例地增加。即越多的特征会带来更多的数据样本,模型的性能会提升。当数据纬度过大时,会造成“纬度灾难”,导致模型的性能降低。因此应当对数据进行降维处理,使模型性能达到最优。
- 它有助于消除冗余的特征和噪声误差因素,最终增强给定数据集的可视化。
- 纬度的降低,内存管理更加优秀。
- 通过删除不必要的特性列表选择正确的特性,从而提高模型的性能。
- 提高计算效率,更快地训练模型,提高模型的准确性。
- 大大降低了整个模型及其性能的负责性和过拟合。
2.2 降维技术
降维的方法就是选择最佳拟合特性或删除给定高维数据集中不太重要的特性,一些高级技术通常被称为特征选择或特征选取。
- 主成分分析(PCA)
- 线性判别分析(LDA)
3. PCA
3.1 向量表示和基变换
3.1.1 内积
两个向量A,B内积如下:
(
a
1
,
a
2
,
⋅
⋅
⋅
,
a
n
)
⋅
(
b
1
,
b
2
,
⋅
⋅
⋅
,
b
n
)
T
=
a
1
b
1
+
a
2
b
2
+
⋅
⋅
⋅
+
a
n
b
n
(a_1,a_2,···,a_n)·(b_1,b_2,···,b_n)^T = a_1b_1+a_2b_2+···+a_nb_n
(a1,a2,⋅⋅⋅,an)⋅(b1,b2,⋅⋅⋅,bn)T=a1b1+a2b2+⋅⋅⋅+anbn
从几何角度分析,假设 A 和 B 均为二维向量,则:
A
=
(
x
1
,
y
1
)
,
B
=
(
x
2
,
y
2
)
,
A
⋅
B
=
∣
A
∣
∣
B
∣
c
o
s
(
α
)
A=(x_1,y_1),B=(x_2,y_2),A·B=|A||B|cos(\alpha)
A=(x1,y1),B=(x2,y2),A⋅B=∣A∣∣B∣cos(α)
其几何表示见下图:
我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。如果假设 B 的模为 1,即让
∣
B
∣
=
1
|B|=1
∣B∣=1,那么就变成了:
A
⋅
B
=
∣
A
∣
c
o
s
(
α
)
A·B=|A|cos(\alpha)
A⋅B=∣A∣cos(α)
也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的标量大小。这就是内积的一种几何解释,也是我们得到的第一个重要结论。
3.1.2 基
在常说的坐标系中,向量 (3,4) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为标准。向量 (3,4) 实际是说在 x 轴投影为 3 而 y 轴的投影为 4。注意投影是一个标量,所以可以为负。
所以,对于向量 (3, 4) 来说,求 (1,0),(0,1) 这组基下的坐标的话,分别内积即可。当然,内积完了还是 (3, 2)。
所以,我们大致可以得到一个结论,我们要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。为了方便求坐标,我们希望这组基向量模长为 1。因为向量的内积运算,当模长为 1 时,内积可以直接表示投影。然后还需要这组基是线性无关的,我们一般用正交基,非正交的基也是可以的,不过正交基有较好的性质。
3.1.3 基变换的矩阵表示
对于向量 (3,2) 这个点来说,在 ( 1 2 \frac {1}{\sqrt {2}} 21, 1 2 \frac {1}{\sqrt {2}} 21) 和 (- 1 2 \frac {1}{\sqrt {2}} 21, 1 2 \frac {1}{\sqrt {2}} 21) 这组基下的坐标是多少?
用 (3,2) 分别与之内积,得到 (
5
2
\frac {5}{\sqrt {2}}
25, -
1
2
\frac {1}{\sqrt {2}}
21) 这个新坐标。
可以用矩阵相乘的形式简洁的表示这个变换:
(
1
2
1
2
−
1
2
1
2
)
(
3
2
)
=
(
5
2
−
1
2
)
\begin{pmatrix}\frac {1}{\sqrt {2}} & \frac {1}{\sqrt {2}} \\ \\ -\frac {1}{\sqrt {2}} & \frac {1}{\sqrt {2}}\\ \end{pmatrix} \begin{pmatrix}3 \\ \\ 2\\ \end{pmatrix}=\begin{pmatrix}\frac {5}{\sqrt {2}} \\ \\ -\frac {1}{\sqrt {2}}\\ \end{pmatrix}
⎝
⎛21−212121⎠
⎞⎝
⎛32⎠
⎞=⎝
⎛25−21⎠
⎞
左边矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。推广一下,如果我们有 m 个二维向量,只要将二维向量按列排成一个两行 m 列矩阵,然后用“基矩阵”乘以这个矩阵就可以得到了所有这些向量在新基下的值。例如对于数据点(1,1), (2,2),(3,3)来说,想变换到刚才那组基上,则可以这样表示:
(
1
2
1
2
−
1
2
1
2
)
(
1
2
3
1
2
3
)
=
(
2
2
4
2
6
2
0
0
0
)
\begin{pmatrix}\frac {1}{\sqrt {2}} & \frac {1}{\sqrt {2}} \\ \\ -\frac {1}{\sqrt {2}} & \frac {1}{\sqrt {2}}\\ \end{pmatrix} \begin{pmatrix}1 & 2 & 3\\ \\ 1 & 2 & 3\\ \end{pmatrix}=\begin{pmatrix}\frac {2}{\sqrt {2}} & \frac {4}{\sqrt {2}} & \frac {6}{\sqrt {2}}\\ \\ 0 & 0 & 0\\ \end{pmatrix}
⎝
⎛21−212121⎠
⎞⎝
⎛112233⎠
⎞=⎝
⎛220240260⎠
⎞
我们可以把它写成通用的表示形式:
其中
p
i
p_i
pi 是一个行向量,表示第 i 个基,
a
j
a_j
aj 是一个列向量,表示第 j 个原始数据记录。实际上也就是做了一个向量矩阵化的操作。
上述分析给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列向量
a
i
a_i
ai 变换到左边矩阵中以每一行行向量为基所表示的空间中去
。也就是说一个矩阵可以表示一种线性变换。
3.2 最大可分性
上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,如果基的数量少于向量本身的维数,则可以达到降维的效果。
最关键的问题:如何选择基才是最优的。或者说,如果我们有一组 N 维向量,现在要将其降到 K 维(K 小于 N),那么我们应该如何选择 K 个基才能最大程度保留原有的信息?
一种直观的看法是:希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。当然这个也可以从熵的角度进行理解,熵越大所含信息越多。
3.2.1 方差
数值的分散程度可以用数学上的方差来表述。一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即:
为了方便处理,将每个变量的均值都化为 0 ,因此方差可以直接用每个元素的平方和除以元素个数表示:
于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大
。
3.2.2 协方差
在一维空间中我们可以用方差来表示数据的分散程度。而对于高维数据,我们用协方差进行约束,协方差可以表示两个变量的相关性。为了让两个变量尽可能表示更多的原始信息,我们希望它们之间不存在线性相关性,因为相关性意味着两个变量不是完全独立,必然存在重复表示的信息。
协方差公式为:
由于均值为 0,所以协方差公式可以表示为:
当样本数较大时,不必在意其是 m 还是 m-1,为了方便计算,分母取 m。
当协方差为 0 时,表示两个变量线性不相关。为了让协方差为 0,选择第二个基时只能在与第一个基正交的方向上进行选择,因此最终选择的两个方向一定是正交的。
至此,得到了降维问题的优化目标:将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。
3.2.3 协方差矩阵
优化目标:各变量两两间协方差为 0,而变量方差则尽可能大。
变量内方差及变量间协方差有密切关系。因此希望将两者统一表示。仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是考虑协方差矩阵:在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差。
假设只有 a 和 b 两个变量,那么我们将它们按行组成矩阵 X:
然后:
可以看到这个矩阵对角线上的分别是两个变量的方差,而其它元素是 a 和 b 的协方差。两者被统一到了一个矩阵里。
很容易被推广到一般情况:
设有 m 个 n 维数据记录,将其排列成矩阵 X n , m X_{n,m} Xn,m ,设 C = 1 m X X T C=\frac1mXX^T C=m1XXT ,则 C 是一个对称矩阵,其对角线分别对应各个变量的方差,而第 i 行 j 列和 j 行 i 列元素相同,表示 i 和 j 两个变量的协方差。
3.2.4 矩阵对角化
根据优化条件,需要将除对角线外的其它元素化为 0,并且在对角线上将元素按大小从上到下排列(变量方差尽可能大),这样就达到了优化目的。
原矩阵与基变换后矩阵协方差矩阵的关系:
设原始数据矩阵 X 对应的协方差矩阵为 C
,而 P 是一组基按行组成的矩阵,设 Y=PX,则 Y 为 X 对 P 做基变换后的数据。设 Y 的协方差矩阵为 D,推导一下 D 与 C 的关系:
通过上述可知,要找的 P 是能让原始协方差矩阵对角化的 P。换句话说,优化目标变成了寻找一个矩阵 P,满足
P
C
P
T
PCP^T
PCPT 是一个对角矩阵
,并且对角元素按从大到小依次排列,那么 P 的前 K 行就是要寻找的基,用 P 的前 K 行组成的矩阵乘以 X 就使得 X 从 N 维降到了 K 维并满足上述优化条件。
至此,离 PCA 还有仅一步之遥, 即需要完成对角化——寻找P。
由上文知道,协方差矩阵 C 是一个是对称矩阵,在线性代数中实对称矩阵有一系列非常好的性质:
- 实对称矩阵不同特征值对应的特征向量必然正交。
- 设特征向量 λ \lambda λ 重数为 r,则必然存在 r 个线性无关的特征向量对应于 λ \lambda λ ,因此可以将这 r 个特征向量单位正交化。
由上面两条可知,一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量,设这 n 个特征向量为 e 1 , e 2 , ⋅ ⋅ ⋅ , e n e_1, e_2, ···, e_n e1,e2,⋅⋅⋅,en, 将其按列组成矩阵: E = ( e 1 , e 2 , ⋅ ⋅ ⋅ , e n ) E = (e_1, e_2, ···, e_n) E=(e1,e2,⋅⋅⋅,en)。
则对协方差矩阵 C 有如下结论:
其中
Λ
\Lambda
Λ 为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。
到这里,已经找到了需要的矩阵 P: P = E T P=E^T P=ET 。
P 是协方差矩阵的特征向量单位化
后按行排列出的矩阵,其中每一行都是 C 的一个特征向量。如果设 P 按照
Λ
\Lambda
Λ 中特征值的从大到小,将特征向量从上到下排列,则用 P 的前 K 行组成的矩阵乘以原始数据矩阵 X,就得到了我们需要的降维后的数据矩阵 Y。
3.2.5 拉格朗日乘子法
在叙述求协方差矩阵对角化时,希望变化后的变量有:变量间协方差为 0 且变量内方差尽可能大。然后通过实对称矩阵的性质给予了推导,此外还可以把它转换为最优化问题利用拉格朗日乘子法来给予推导。
样本点 x i x_i xi 在基 w 下的坐标为: ( x i , w ) = x T w (x_i,w)=x^Tw (xi,w)=xTw ,于是方差为:
其中
1
m
x
i
x
i
T
\frac1mx_ix_i^T
m1xixiT就是原样本的协方差,令这个矩阵为
Λ
\Lambda
Λ ,于是有:
然后构造拉格朗日函数:
对 w 求导:
此时方差为:
于是发现,x 投影后的方差就是协方差矩阵的特征值。要找到最大方差也就是协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量,次佳就是第二大特征值对应的特征向量,以此类推。
3.2.6 零均值化
当对训练集进行 PCA 降维时,也需要对验证集、测试集执行同样的降维。而对验证集、测试集执行零均值化操作时,均值必须从训练集计算而来,不能使用验证集或者测试集的中心向量。
其原因也很简单,因为训练集是可观测到的数据,测试集不可观测,所以不会知道其均值,而验证集再大部分情况下是在处理完数据后再从训练集中分离出来,一般不会单独处理。如果真的是单独处理了,不能独自求均值的原因是和测试集一样。
3.3 算法步骤
设有 m 条 n 维数据。
- 原始数据按列组成 n 行 m 列矩阵 X;
- 将 X 的每一行进行零均值化,即减去这一行的均值;
- 求出协方差矩阵 C = 1 m X X T C={\frac1mXX^T} C=m1XXT;
- 求出协方差矩阵的特征值及对应的特征向量;
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P;
- Y = P X Y=PX Y=PX即为降维到 k 维后的数据。
3.4 PCA的优缺点
优点:
-
它是无监督学习,完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。
-
用PCA技术可以对数据进行降维,同时对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。
-
各主成分之间正交,可消除原始数据成分间的相互影响。
-
计算方法简单,易于在计算机上实现。
缺点:
- 贡献率小的主成分往往可能含有对样本差异的重要信息。
- 特征值矩阵的正交向量空间是否唯一有待讨论。
- 在非正态分布的情况下,PCA方法得出的主元可能并不是最优的,此时在寻找主元时不能将方差作为衡量重要性的标准。