降维
第二种类型的无监督学习问题是降维, 第一种是之前的聚类。那么什么是降维呢?举个例子, 假如你有许多三维的数据点,像下图这样:
我们可以把它投影到二维平面内,这样就可以用2维点表示三维数据了。但我觉得前提是高纬度之间有比较强的相关性。
PCA( Principal Component Analysis)
主成分分析(PCA)是最常见的降维算法。先让我们了解下PCA。
假设我有下图的二维数据:
我想要将其降为1维, 那么就可以找一条直线,将数据投影到直线上。如下图:
PCA做的就是找一个低维平面, 这个例子中是条直线,然后将数据投影在上面。使得图上的蓝色小线段的长度平方最小。这些蓝色小线段也称为投影误差(
p
r
o
j
e
c
t
i
o
n
e
r
r
o
r
projection\ error
projection error)
- 还有注意, 应用PCA之前, 常用的做法是先均值归一化和特征规范化。所以这些被降维的值均值为0,数据比较可控。之后会讲解这部分的细节。
在二维降到一维的时候,并不关心向量的正负,因为只是定义了直线的方向。
下面正式的描述一下:
PCA问题是要将
n
n
n维数据降至
k
k
k维,目标是找到向量
u
(
1
)
u^{(1)}
u(1),
u
(
2
)
u^{(2)}
u(2),…,
u
(
k
)
u^{(k)}
u(k)使得总的投射误差最小。
- 主成分分析与线性回顾的比较:
主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差(Projected Error),而线性回归尝试的是最小化预测误差,也就是点和直线的平方误差。线性回归的目的是预测结果,而主成分分析不作任何预测。
使用PCA
第一步是进行数据的预处理, 先均值归一化。这个名字也有什么均值标准化,英文是( m e a n n o r m a l i z a t i o n mean\ normalization mean normalization) 具体操作肯定与均值有关, 除不除标准差或者最大值减最小值看你自己的选择,如果数据差别不大,那么我们只需要计算出所有特征的均值,然后令 x j = x j − μ j x_j= x_j-μ_j xj=xj−μj。如果特征是在不同的数量级上,我们还需要将其除以标准差 σ 2 σ^2 σ2或者 m a x − m i n max-min max−min.
第二步是计算协方差矩阵(covariance matrix)
Σ
Σ
Σ:这个矩阵看起来像求和号,但是它的确是个矩阵
∑
=
1
m
∑
i
=
1
n
(
x
(
i
)
)
(
x
(
i
)
)
T
\sum=\dfrac {1}{m}\sum^{n}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T}
∑=m1∑i=1n(x(i))(x(i))T
第三步是计算协方差矩阵 Σ Σ Σ的特征向量(eigenvectors):
def pca(X):
# normalize the features
X = (X - X.mean()) / X.std()
# compute the covariance matrix
X = np.matrix(X)
cov = (X.T * X) / X.shape[0]
# perform SVD
U, S, V = np.linalg.svd(cov)
# 这里没转置哎, 是不是已经转置好了
return U, S, V
对于一个
n
×
n
n×n
n×n维度的矩阵,上式中的
U
U
U是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从
n
n
n维降至
k
k
k维,我们只需要从
U
U
U中选取前
k
k
k个向量,获得一个
n
×
k
n×k
n×k维度的矩阵,我们用
U
r
e
d
u
c
e
U_{reduce}
Ureduce表示,然后通过如下计算获得要求的新特征向量
z
(
i
)
z^{(i)}
z(i):
z
(
i
)
=
U
r
e
d
u
c
e
T
∗
x
(
i
)
z^{(i)}=U^{T}_{reduce}*x^{(i)}
z(i)=UreduceT∗x(i)
U, S, V = pca(X)
def project_data(X, U, k):
U_reduced = U[:,:k]
return np.dot(X, U_reduced) # 反正是和原理有些不一样
Z = project_data(X, U, 1)
其中 x x x是 n × 1 n×1 n×1维的,因此结果为 k × 1 k×1 k×1维度。注,我们不对方差特征进行处理。
选择主成分的数量
PCA主要做的就是最小化投影误差(就是之前的小蓝线)平方的平均值,写成公式是这样:
1
m
∑
i
=
1
m
∥
x
(
i
)
−
x
a
p
p
r
o
x
(
i
)
∥
2
\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x_{approx}^{(i)}\right\| ^{2}
m1i=1∑m∥∥∥x(i)−xapprox(i)∥∥∥2
再来一个概念是数据的总方差, 或者是训练集方差:
1
m
∑
i
=
1
m
∥
x
(
i
)
∥
2
\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }\right\| ^{2}
m1i=1∑m∥∥∥x(i)∥∥∥2, 就是这些数据的平均长度, 或者说是距离全0向量的距离
我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的
k
k
k值, 如下:
1
m
∑
i
=
1
m
∥
x
(
i
)
−
x
a
p
p
r
o
x
(
i
)
∥
2
1
m
∑
i
=
1
m
∥
x
(
i
)
∥
2
<
=
0.01
\dfrac {\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right\| ^{2}}{\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{(i)}\right\| ^{2}}<=0.01
m1∑i=1m∥∥x(i)∥∥2m1∑i=1m∥∥∥x(i)−xapprox(i)∥∥∥2<=0.01
对于上式, 这个比例小于1%,就意味着原本数据的偏差有99%都保留下来了,如果我们选择保留95%的偏差,便能非常显著地降低模型中特征的维度了。
我们可以先令 k = 1 k=1 k=1,然后进行主要成分分析,获得 U r e d u c e U_{reduce} Ureduce和 z z z,然后计算比例是否小于1%。如果不是的话再令 k = 2 k=2 k=2,如此类推,直到找到可以使得比例小于1%的最小 k k k 值(原因是各个特征之间通常情况存在某种相关性)。
还有一些更好的方式来选择
k
k
k, python使用U, S, V = np.linalg.svd(cov)
, 其中的
S
S
S是一个
n
×
n
n×n
n×n的矩阵,只有对角线上有值,而其它单元都是0,我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例:
1 m ∑ i = 1 m ∥ x ( i ) − x a p p r o x ( i ) ∥ 2 1 m ∑ i = 1 m ∥ x ( i ) ∥ 2 = 1 − Σ i = 1 k S i i Σ i = 1 m S i i ≤ 1 % \dfrac {\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right\| ^{2}}{\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{(i)}\right\| ^{2}}=1-\dfrac {\Sigma^{k}_{i=1}S_{ii}}{\Sigma^{m}_{i=1}S_{ii}}\leq 1\% m1∑i=1m∥∥x(i)∥∥2m1∑i=1m∥∥∥x(i)−xapprox(i)∥∥∥2=1−Σi=1mSiiΣi=1kSii≤1%
其中 Σ i = 1 k S i i Σ i = 1 m S i i \dfrac {\Sigma^{k}_{i=1}S_{ii}}{\Sigma^{m}_{i=1}S_{ii}} Σi=1mSiiΣi=1kSii, 分子是选择对角线K个的和, 分母是对角线所有元素的和. 如果1减去这个式子小于等于0.01, 也就是能保留99%的信息.
数据重建
有了降维后的数据, 如何恢复呢?
假如是两维的数据, 降维如下图:
x
x
x为2维,
z
z
z为1维,
z
=
U
r
e
d
u
c
e
T
x
z=U^{T}_{reduce}x
z=UreduceTx,相反的方程为:
x
a
p
p
o
x
=
U
r
e
d
u
c
e
⋅
z
x_{appox}=U_{reduce}\cdot z
xappox=Ureduce⋅z,
x
a
p
p
o
x
≈
x
x_{appox}\approx x
xappox≈x。
这里这个
U
r
e
d
u
c
e
U_{reduce}
Ureduce 乘它的转置有些近似为单位阵, 问就是我也不知道为啥······
def recover_data(Z, U, k):
U_reduced = U[:,:k]
return np.dot(Z, U_reduced.T)
X_recovered = recover_data(Z, U, 1)