从零开始机器学习(十三)

降维

第二种类型的无监督学习问题是降维, 第一种是之前的聚类。那么什么是降维呢?举个例子, 假如你有许多三维的数据点,像下图这样:
在这里插入图片描述

我们可以把它投影到二维平面内,这样就可以用2维点表示三维数据了。但我觉得前提是高纬度之间有比较强的相关性。
在这里插入图片描述

PCA( Principal Component Analysis)

主成分分析(PCA)是最常见的降维算法。先让我们了解下PCA。
假设我有下图的二维数据:
在这里插入图片描述
我想要将其降为1维, 那么就可以找一条直线,将数据投影到直线上。如下图:
在这里插入图片描述
PCA做的就是找一个低维平面, 这个例子中是条直线,然后将数据投影在上面。使得图上的蓝色小线段的长度平方最小。这些蓝色小线段也称为投影误差( p r o j e c t i o n   e r r o r projection\ error projection error)

  • 还有注意, 应用PCA之前, 常用的做法是先均值归一化和特征规范化。所以这些被降维的值均值为0,数据比较可控。之后会讲解这部分的细节。

在二维降到一维的时候,并不关心向量的正负,因为只是定义了直线的方向。

下面正式的描述一下:
PCA问题是要将 n n n维数据降至 k k k维,目标是找到向量 u ( 1 ) u^{(1)} u(1), u ( 2 ) u^{(2)} u(2),…, u ( k ) u^{(k)} u(k)使得总的投射误差最小。

  • 主成分分析与线性回顾的比较:

主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差(Projected Error),而线性回归尝试的是最小化预测误差,也就是点和直线的平方误差。线性回归的目的是预测结果,而主成分分析不作任何预测。
在这里插入图片描述

使用PCA

第一步是进行数据的预处理, 先均值归一化。这个名字也有什么均值标准化,英文是( m e a n   n o r m a l i z a t i o n mean\ normalization mean normalization) 具体操作肯定与均值有关, 除不除标准差或者最大值减最小值看你自己的选择,如果数据差别不大,那么我们只需要计算出所有特征的均值,然后令 x j = x j − μ j x_j= x_j-μ_j xj=xjμj。如果特征是在不同的数量级上,我们还需要将其除以标准差 σ 2 σ^2 σ2或者 m a x − m i n max-min maxmin.

第二步是计算协方差矩阵covariance matrix Σ Σ Σ:这个矩阵看起来像求和号,但是它的确是个矩阵
∑ = 1 m ∑ i = 1 n ( x ( i ) ) ( x ( i ) ) T \sum=\dfrac {1}{m}\sum^{n}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T} =m1i=1n(x(i))(x(i))T

第三步是计算协方差矩阵 Σ Σ Σ特征向量eigenvectors):

def pca(X):
    # normalize the features
    X = (X - X.mean()) / X.std()
    
    # compute the covariance matrix
    X = np.matrix(X)
    cov = (X.T * X) / X.shape[0]
    
    # perform SVD
    U, S, V = np.linalg.svd(cov)
    # 这里没转置哎, 是不是已经转置好了
    
    return U, S, V

对于一个 n × n n×n n×n维度的矩阵,上式中的 U U U是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从 n n n维降至 k k k维,我们只需要从 U U U中选取前 k k k个向量,获得一个 n × k n×k n×k维度的矩阵,我们用 U r e d u c e U_{reduce} Ureduce表示,然后通过如下计算获得要求的新特征向量 z ( i ) z^{(i)} z(i):
z ( i ) = U r e d u c e T ∗ x ( i ) z^{(i)}=U^{T}_{reduce}*x^{(i)} z(i)=UreduceTx(i)


U, S, V = pca(X)

def project_data(X, U, k):
    U_reduced = U[:,:k]
    return np.dot(X, U_reduced) # 反正是和原理有些不一样
    
Z = project_data(X, U, 1)

其中 x x x n × 1 n×1 n×1维的,因此结果为 k × 1 k×1 k×1维度。注,我们不对方差特征进行处理。

选择主成分的数量

PCA主要做的就是最小化投影误差(就是之前的小蓝线)平方的平均值,写成公式是这样:
1 m ∑ i = 1 m ∥ x ( i ) − x a p p r o x ( i ) ∥ 2 \dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x_{approx}^{(i)}\right\| ^{2} m1i=1mx(i)xapprox(i)2

再来一个概念是数据的总方差, 或者是训练集方差:
1 m ∑ i = 1 m ∥ x ( i ) ∥ 2 \dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }\right\| ^{2} m1i=1mx(i)2, 就是这些数据的平均长度, 或者说是距离全0向量的距离

我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的 k k k值, 如下:
1 m ∑ i = 1 m ∥ x ( i ) − x a p p r o x ( i ) ∥ 2 1 m ∑ i = 1 m ∥ x ( i ) ∥ 2 < = 0.01 \dfrac {\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right\| ^{2}}{\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{(i)}\right\| ^{2}}<=0.01 m1i=1mx(i)2m1i=1mx(i)xapprox(i)2<=0.01

对于上式, 这个比例小于1%,就意味着原本数据的偏差有99%都保留下来了,如果我们选择保留95%的偏差,便能非常显著地降低模型中特征的维度了。

我们可以先令 k = 1 k=1 k=1,然后进行主要成分分析,获得 U r e d u c e U_{reduce} Ureduce z z z,然后计算比例是否小于1%。如果不是的话再令 k = 2 k=2 k=2,如此类推,直到找到可以使得比例小于1%的最小 k k k 值(原因是各个特征之间通常情况存在某种相关性)。

还有一些更好的方式来选择 k k k, python使用U, S, V = np.linalg.svd(cov), 其中的 S S S是一个 n × n n×n n×n的矩阵,只有对角线上有值,而其它单元都是0,我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例:

1 m ∑ i = 1 m ∥ x ( i ) − x a p p r o x ( i ) ∥ 2 1 m ∑ i = 1 m ∥ x ( i ) ∥ 2 = 1 − Σ i = 1 k S i i Σ i = 1 m S i i ≤ 1 % \dfrac {\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right\| ^{2}}{\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{(i)}\right\| ^{2}}=1-\dfrac {\Sigma^{k}_{i=1}S_{ii}}{\Sigma^{m}_{i=1}S_{ii}}\leq 1\% m1i=1mx(i)2m1i=1mx(i)xapprox(i)2=1Σi=1mSiiΣi=1kSii1%

其中 Σ i = 1 k S i i Σ i = 1 m S i i \dfrac {\Sigma^{k}_{i=1}S_{ii}}{\Sigma^{m}_{i=1}S_{ii}} Σi=1mSiiΣi=1kSii, 分子是选择对角线K个的和, 分母是对角线所有元素的和. 如果1减去这个式子小于等于0.01, 也就是能保留99%的信息.

数据重建

有了降维后的数据, 如何恢复呢?
假如是两维的数据, 降维如下图:
在这里插入图片描述

x x x为2维, z z z为1维, z = U r e d u c e T x z=U^{T}_{reduce}x z=UreduceTx,相反的方程为: x a p p o x = U r e d u c e ⋅ z x_{appox}=U_{reduce}\cdot z xappox=Ureducez,
x a p p o x ≈ x x_{appox}\approx x xappoxx
在这里插入图片描述
这里这个 U r e d u c e U_{reduce} Ureduce 乘它的转置有些近似为单位阵, 问就是我也不知道为啥······

def recover_data(Z, U, k):
    U_reduced = U[:,:k]
    return np.dot(Z, U_reduced.T)
X_recovered = recover_data(Z, U, 1)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值