降维

最新推荐文章于 2024-10-04 17:28:54 发布

weixin_30248399

最新推荐文章于 2024-10-04 17:28:54 发布

阅读量111

点赞数

原文链接：http://www.cnblogs.com/wisteria68/p/10852373.html

版权

区别

&nbsp 特征提取：通过对原始特征进行不同形式的函数映射，从而转换出一组具有代表性意义的特征(对原始的特征集合进行变化)，来达到降维的目的。常见的算法有：PCA、SVD、LDA
&nbsp 特征选择：在原始特征中选出一组最具统计意义的特征（没有对原始的特征集合进行变化），来达到降维的目的。常见的算法有：Filter、Wrapper、Embedded

联系

&nbsp 都是对原始的数据进行降维，减少冗余特征对算法的影响。

常用的降维方法

1.SVD奇异值矩阵分解

&nbsp 属于无监督方法。
&nbsp 奇异值矩阵分解的原理是将初始矩阵$A$分解为$U$、$\sum $、$V^{T}$3个矩阵相乘的形式。其中$A$是一个$m\times n$的矩阵。$U$和$V^{T}$分别是$m\times m$和$n\times n$的两个酉矩阵，即$U^{T}U=I$，$V^{T}V=I$。$\sum $是$m\times n$的矩阵。
&nbsp $A=U\sum V^{T}$
&nbsp 进一步求解矩阵$U$、$\sum $、$V^{T}$：由于特征值分解要求被分解的矩阵是一个方阵，所以对矩阵$U$和$V$进行求解时首先要构造一个$m\times m$的方阵和一个$n\times n$的方阵。即$AA^{T}$和$A^{T}A$。
&nbsp 令$\left ( AA^{T} \right )u_{i}=\lambda _{i}u_{i}$，其中$u_{i}=\left ( u_{1},u_{2}\cdots ,u_{m} \right )^{T}$。得到$AA^{T}$的$m$个特征值对应的特征向量张成的$m\times m$的矩阵空间就是$U$
&nbsp 令$\left ( A^{T}A \right )v_{i}=\lambda _{i}v_{i}$，其中$v_{i}=\left ( v_{1},v_{2}\cdots ,v_{n} \right )^{T}$。得到$A^{T}A$的$n$个特征值对应的特征向量张成的的$n\times n$矩阵空间就是$V$。
&nbsp 公式进行推导$A=U\sum V^{T}\Rightarrow AV=U\sum \Rightarrow Av_{i}=\sigma _{i}u_{i}\Rightarrow \sigma _{i}=Av_{i}/u_{i}$，由此可以求出每一个奇异值$\sigma _{i}$，进一步可以得到矩阵$\sum$。即：$\sum =diag\left ( \sigma _{1},\sigma _{2},\cdots ,\sigma _{r} \right )$，其中$\sigma _{i}> 0$,$\left ( i=1,2,\cdots ,r \right )$，$r$是矩阵的秩$r=rank\left ( A \right )$。

2.PCA主成分分析

&nbsp 属于无监督方法。
&nbsp 在多元统计分析中，总体$X$是一个$p$维随机向量$\left ( x_{1},\cdots ,x_{p} \right )$容量为$n$的一个样本$X_{1},\cdots ,X_{p}$一共包括$n\times p$个数据。PCA（主成分分析）是一种常用的“降维”方法，它用$k$个不相关的主成分（即原来$p$个相关变量的线性组合构成的综合变量）来代替原来的$p$个相关变量，这$k$个主成分能够反映原变量提供的大部分信息。

&nbsp 显然这里的pc1所代表的$y_{1}$是数据变化最大的方向，称之为第一主成分，pc2所代表的$y_{2}$，称之为第二主成分。

寻找$X$的$p$个主成分

&nbsp 定理：设总体$X=\left ( x_{1},\cdots ,x_{p} \right )^{T}$的协方差为$\sum$，其特征值为$\lambda _{1} \geqslant \lambda _{2} \geqslant \cdots \geqslant \lambda _{p} \geqslant 0$，$e_{1},e_{2},\cdots ,e_{p}$为对应的单位正交特征向量，则$X$的第$i$个主成分为。
&nbsp $y_{i}=e_{i}^{T}X=e_{i1}x_{1}+e_{i2}x_{2}+\cdots +e_{ip}x_{p},i=1,\cdots ,p$ (1)
&nbsp $var\left ( y_{i} \right )=e_{i}^{T}\sum e_{i}=\lambda _{i},i=1,\cdots ,p$ (2)
&nbsp $cov\left ( y_{i},y_{j} \right )=e_{i}^{T}\sum e_{j}=0,i\neq j$ (3)
&nbsp 该定理说明$X$的主成分是以$\sum$的单位正交特征向量为系数的线性组合，第$i$个主成分的系数是$\sum$的第$i$大特征值$\lambda _{i}$对应的单位正交特征向量，而且$y_{i}$的方差等于 $\lambda _{i}$。
&nbsp 当然我们还可证明：原变量$x_{1},\cdots ,x_{p}$的方差的和等于主成分$y_{1},\cdots ,y_{p}$的方差的和，即。
&nbsp $\sum_{i=1}^{p}var\left ( x_{i} \right )=\sum_{i=1}^{p}var\left ( y_{i} \right )=\sum_{i=1}^{p}var\left ( \lambda _{i} \right )$ (4)

主成分的选取

&nbsp 找到$p$个主成分之后，通常选取$k\left ( k< p \right )$个来代替原来的$p$个变量，如何确定$k$值？
&nbsp 从方差角度看，原来的$p$个变量的总的变化等于$p$个主成分总的变化，采用以下指标
&nbsp $w_{i}=\frac{\lambda _{i}}{\sum_{j=1}^{p}\lambda _{j}},i=1,\cdots ,p$(5)
来度量主成分$y_{i}$概括原变量信息的大小程度，称之为主成分$y_{i}$的方差贡献率。而前$k$个$w_{i}$的和$\sum_{i=1}^{k}w_{i}$称之前$k$个主成分的累计方差贡献率，$k$的大小可以由累计贡献率来确定，一般取$k$使得$\sum_{i=1}^{k}w_{i}\geqslant 0.8$即可。

3.LDA

&nbsp 属于有监督方法。
&nbsp 简介：线性判别式分析（Linear Discriminant Analysis），简称为 LDA，也称为 Fisher 线性判别，1936 年由 Ronald Fisher 提出，1996 年由 Belhumeur 引入模式识别和人工智能领域。
&nbsp LDA的思想：将带上标签数据(点)，通过投影(变换)的方法，投影更低维的空间。在这个低维空间中，同类样本尽可能接近，异类样本尽可能远离。
&nbsp 二维总体分类演示：
&nbsp

&nbsp 显然，直线$y$是$x_{1}$和$x_{2}$的线性组合，即$y=c_{1}x_{1}+c_{2}x_{2}$。一般的，设在$p$维情况下，$x$的线性组合为：
&nbsp $y=a^{T}x$ (1)
其中$a$为$p$维实向量，设$C_{1}$类和$C_{2}$类的均值分别为$\mu _{1}$和$\mu _{2}$，他们有共同的方差-协方差矩阵$\sum $，那么线性组合$y=a^{T}x$的均值为：
&nbsp $\mu _{1y}=E\left ( y\mid x\in C_{1} \right )=a^{T}\mu _{1}$
&nbsp $\mu _{2y}=E\left ( y\mid x\in C_{2} \right )=a^{T}\mu _{2}$ (2)
&nbsp 方差为：
&nbsp $var\left ( y \right )=var\left ( a^{T}x \right )=a^{T}\sum a$ (3)
&nbsp 可以说$\mu _{1y}$与$\mu _{2y}$的距离越大的线性组合越好，可通过以下比值来进行衡量。
&nbsp $\frac{\left ( \mu _{1y}- \mu _{2y}\right )^{2}}{var\left ( y \right )}=\frac{\left [ a^{T} \left ( \mu _{1} -\mu _{2}\right )\right ]^{2}}{a^{T}\sum a}$ (4)
&nbsp 问题简化为：如何选择$a$，使得$(4)$式达到最大值。
&nbsp 定理：设$x$为$p$维随机向量，$y=a^{T}x$，当$a=c\sum{_{}}^{-1}\left ( \mu _{1}-\mu _{2} \right )$($c\neq 0$为常数)时，（4）式最大。特别的，当$c=1$时，线性函数：
&nbsp $y=a^{T}x=\left ( \mu _{1}- \mu _{2}\right )^{T}\sum {_{}}^{-1}x$ (5)
&nbsp 称为Fisher线性判别函数。
&nbsp 取$\mu _{y}=\frac{1}{2}\left ( \mu _{1y}+ \mu _{2y}\right )=\frac{1}{2}\left ( \mu _{1}+ \mu _{2} \right )^{T}\sum {_{}}^{-1}\left ( \mu _{1}-\mu _{2} \right )$(6)
&nbsp 容易证明：$\mu _{1y}-\mu _{y}> 0,\mu _{2y}-\mu _{y}< 0$，于是可得Fisher线性准则：当$y=\left ( \mu _{1}-\mu _{2}\right )^{T}\sum {_{}}^{-1}x\geqslant \mu _{y}$。时，判$x\in C_{1}$;当$y=\left ( \mu _{1}-\mu _{2}\right )^{T}\sum {_{}}^{-1}x &nbsp 如果记$W\left ( x \right )=\left ( \mu _{1} -\mu _{2}\right )^{T}\sum {_{}}^{-1}x-\mu _{y}$,则判别准则等价于：当$W\left ( x \right )\geqslant 0$时，判$x\in C_{1}$;当$W\left ( x \right )\leqslant 0$时，判$x\in C_{2}$。
&nbsp 注意：当总体的均值和方差-协方差矩阵未知时，通常用样本均值和样本方差-协方差矩阵来估计，即用样本均值$\bar{x}_{1}$和$\bar{x}_{2}$分别估计$\mu _{1}$和$\mu _{2}$，用样本方差-协方差$S=\frac{1}{n_{1}+n_{2}-2}\left [ \left ( n_{1} -1\right )S_{1} +\left ( n_{2}-1 \right )S_{2}\right ]$来估计$\sum $,这里$S_{1}$和$S_{2}$分别是两个样本的样本方差-协方差矩阵。

4.Filter

&nbsp 其主要思想是：对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序。
&nbsp 主要的方法有：Chi-squared test(卡方检验)，ID3(信息增益) correlation coefficient scores(相关系数)。

ID3(信息增益)

&nbsp 属于有监督方法。
&nbsp 随机森林不止简单的用于分类，还可用于重要属性的筛选---增益最高的属性为最优的划分属性也是最重要的属性，可对原始数据进行降维。
&nbsp

&nbsp

5.Wrapper

&nbsp 其主要思想是：将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GA，PSO，DE，ABC等，详见“优化算法——人工蜂群算法(ABC)”，“优化算法——粒子群算法(PSO)”。
&nbsp 主要方法有：recursive feature elimination algorithm(递归特征消除算法)。