特征选择和提取

最新推荐文章于 2023-11-07 15:47:59 发布

对不起该昵称已存在

最新推荐文章于 2023-11-07 15:47:59 发布

阅读量569

点赞数

分类专栏：模式识别与机器学习

本文链接：https://blog.csdn.net/qq_43326818/article/details/113047131

版权

模式识别与机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

特征选择和提取

一、why
二、特征选择
- 1、含义
- 2、选取准则
三、特征提取

一、why

1、特征选择和提取是模式识别中的一个关键问题，特征的选择强烈影响分类器的设计及其性能。

2、在很多实际问题中，往往不容易找到那些最重要的特征，或受客观条件的限制，不能对它们进行有效的测量；因此在测量时，由于人们心理上的作用，只要条件许可总希望把特征取得多一些；另外，由于客观上的需要，为了突出某些有用信息，抑制无用信息，有意加上一些比值、指数或对数等组合计算特征；如果将数目很多的测量值不做分析，全部直接用作分类特征，不但耗时，而且会影响到分类的效果，产生“特征维数灾难”问题。

3、为了设计出效果好的分类器，通常需要对原始的测量值集合进行分析，经过选择或变换处理，组成有效的识别特征；在保证一定分类精度的前提下，减少特征维数，即进行“降维”处理，使分类器实现快速、准确和高效的分类。

4、特征选择和特征提取的目的都是为了尽可能保留识别信息的前提下，降低特征空间的维数，以达到有效的分类。

二、特征选择

1、含义

特征选择，就是从 $n$ 个度量集合 ${x_1,x_2,x_3,...,x_n\}$ 中，按某一准则选取出供分类用的子集作为降维( $m ， m < n)$ 的分类特征。

2、选取准则

（1）、对于独立特征的选择准则
假设各原始特征测量值使统计独立的，此时，只需对训练样本的n个测量值独立地进行分析，从中选出m个最好的作为分类特征即可。
（2）、一般特征的散步矩阵准则
类内、类间的散步矩阵 $S_w和S_b$ ，类间离散度越大且类内离散度越小，可分性越好，散步矩阵准则 $J_1$ 和 $J_2$ 形式，使 $J_1或J_2$ 最大的子集可作为所选择的分类特征。计算的散步矩阵不受模式分布形式的限制，但是需要有足够数量的模式样本才能获得有效的结果。

$J_1=det(S_w^{-1}S_b)=\prod\limits_{i}\lambda_i$
$J_2=tr(S_w^{-1}S_b)=\sum\limits_{i}\lambda_i$

三、特征提取

1、含义

特征提取，就是使 $x_1,x_2,...,x_n)$ 通过某种变换，产生 $m$ 个特征作为新的分类特征。

单纯的特征选择简单删掉某几个特征的做法不理想，因为一般来说，原来的n个特征各自在不同程度上反映了识别对象的某些特征，简单删去某些特征可能会丢失较多的有用信息。如果将原来的特征做正交变换，获得的每个数据都是原来n个数据的线性组合，然后从新的数据中选出少数几个，使其尽可能多地反映各类模式之间的差异，而这些特征间又尽可能相互独立，则比单纯的选择方法更灵活、更有效。K-L变换就是一种适用于任意概率密度函数的正交变换。

2、K-L变换

2.1离散形式的K-L变换

$x=(x(1),x(2),...x(n))^T\\\varphi_j=(\varphi_j(1),\varphi_j(2),...\varphi_j(n))^T\\其中\varphi_j为正交向量，即：\\\varphi_i\cdot\varphi_j=\left\{\begin{array}{l}1,if~i=j\\0,else\end{array}\right.$

则 $x$ 可表示为: $x=\sum\limits_{i=1}^Na_i\varphi_i=\Phi a$
其中, $a=(a_1,a_2,...,a_n)^T\\~~~~~~~\Phi=(\varphi_1,\varphi_2,...\varphi_n)\\~~~~~~~~~~~=\begin{pmatrix}\varphi_1(1)&\varphi_2(1)&...&\varphi_n(1)\\~&~&...&~\\\varphi_1(n)&\varphi_2(n)&...&\varphi_n(n)\end{pmatrix}$

2.2正交向量集的确定

设随机向量 $x$ 的总体自相关矩阵为 $R=E(xx^T)$
因为 $x=\sum\limits_{i=1}^na_i\varphi_i$

$\Rightarrow R=E(\Phi aa^T\Phi^T)=\Phi E(aa^T)\Phi^T$
因为要进行特征提取，要求系数向量 $a$ 的各个不同分量应统计独立，即应使 $a_1,a_2,...,a_n)$ 满足： $E(a_ia_j)=\left\{\begin{array}{l}\lambda_i,if~i=j\\0,else\end{array}\right.$

$\Rightarrow$ 即 $E(aa^T)=D_\lambda(对角形式矩阵),即D_\lambda=\begin{bmatrix}\lambda_1&0&0&...&0\\0&\lambda_2&0&...&0\\~&~&~&...&~\\0&0&0&...&\lambda_n\end{bmatrix}$

$\Rightarrow R=\Phi D_\lambda \Phi^T$

因为 $\Phi$ 中的各个向量都相互归一正交

$\Rightarrow R\Phi=\Phi D_\lambda \Phi^T\Phi=\Phi D_\lambda\\\Rightarrow R\varphi_i=\lambda_i\varphi_i\\\Rightarrow \lambda_i是R的特征值，\varphi_i是特征值对应的特征向量$

因为 $R$ 是实对称矩阵，其不同特征值对应的特征向量正交，即：
$\varphi_i\varphi_j=\left\{\begin{array}{l}1~~if~i=j\\0~~else\end{array}\right.\\\Rightarrow 满足\varphi_i为正交向量的要求，即找到正交向量集合{\varphi}\\\Rightarrow a=\Phi^Tx$

此时，得到特征的线性组合a，实际上完成了特征变换。但是此时维度不变，仍然为n维，因此实际特征变换时还要对a进行选择。

2.3K-L展开式系数的计算步骤

（1）、求随机向量 $x$ 的自相关矩阵： $R=E(xx^T)$

（2）、求出矩阵 $R$ 的特征值 $\lambda_i$ 和特征向量 $\varphi_i$ ，得到矩阵：
$\Phi=(\varphi_1,\varphi_2,...,\varphi_n)$

（3）、计算展开式系数：
$a=\Phi^Tx$

2.4基于K-L变换的特征提取

使用K-L变换得到的每一个展开式系数为向量 $x$ 的线性组合，系数由正交向量 $\varphi$ 确定，即特征提取，但是维数不变。若减少 $\varphi$ 的数量，那么得到的系数数量小于n，达到了降维的目的。

则向量 $\varphi$ 应该如何选择使得降维效果最好？

$\Rightarrow$ 希望降维之后得到的新向量在最小均方误差条件下接近原来的向量 $x$ 。

对于 $x=\sum\limits_{i=1}^na_i\varphi_i$ ，现仅取 $m$ 项，对略去的系数项用预先选定的常数 $b$ 代替，此时 $x$ 的估计值为：
$\hat{x}=\sum\limits_{i=1}^ma_i\varphi_i+\sum\limits_{i=m+1}^na_i\varphi_i\\\Rightarrow 误差\Delta x=x-\hat{x}=\sum\limits_{i=m+1}^n(a_i-b)\varphi_i\\\Rightarrow 均方误差\epsilon^2=E((\Delta x)^2)=\sum\limits_{i=m+1}^nE(a_i-b)^2\\\Rightarrow min~\epsilon^2\\\Rightarrow \frac{\partial{E(a_i-b)^2}}{\partial{b}}=0\\\Rightarrow b=E[a_i]\\\Rightarrow \epsilon^2=\sum\limits_{i=m+1}^nE(a_i-E[a_i])^2=\sum\limits_{i=m+1}^n\varphi_i^TE[(x-E(x))(x-E(x))^T]\varphi_i=\sum\limits_{i=m+1}^n\varphi_i^TC_x\varphi_i$

其中 $C_x$ 为协方差矩阵， ${\varphi_i}$ 为正交向量, $C_x$ 与 $\varphi_i$ 的关系可有Lagrange方法得到：
$min~\epsilon^2\\s.t~\varphi_i\cdot\varphi_i=1\\~~~~~\varphi_i\cdot\varphi_j=0\\\Rightarrow Lagrange\\\Rightarrow L(\varphi_i,\alpha_i,\beta_i)=\varphi_i^TC_x\varphi_i+\alpha_i(\varphi_i\cdot\varphi_i-1)+\beta_i\varphi_i\varphi_j\\\Rightarrow\frac{\partial{L}}{\partial{\varphi_i}}=0\\\Rightarrow 2C_x\varphi_i+2\alpha_i\varphi_i+\beta_i\varphi_j=0，乘上\varphi_j^T\\\Rightarrow 2C_x\varphi_i\varphi_j^T+2\alpha_i\varphi_i\varphi_j^T+\beta_i\varphi_j\varphi_j^T=0\\\Rightarrow \beta_i=0\\\Rightarrow C_x\varphi_i=-\alpha_i\varphi_i\\\Rightarrow C_x\varphi_i=\lambda_i\varphi_i\\\Rightarrow \varphi_i为C_x的特征向量，特征值为\lambda_i\\\Rightarrow 因为\varphi_i^T\varphi_i=1\\\Rightarrow \varphi_i^TC_x\varphi_i=\lambda_i\\\Rightarrow \epsilon^2=\sum\limits_{i=1}^n\lambda_i\\\Rightarrow \lambda_i越小则误差越小$

从上面的分析可以看出，选取正交向量集 $\{\varphi\}$ 时，是随机向量 $x$ 的自相关矩阵的特征向量；但是从最小均方误差的角度看，要使误差最小，则 $\{\varphi\}$ 应为协方差矩阵的特征向量，为达到一致，在进行K-L变换前需要对变量进行变换。即在将整体模式进行K-L变换之前，应先将其均值作为坐标轴原点，采用协方差矩阵C或者自相关矩阵R来计算特征值，此时才能得到最好的结果，进行特征变换时的特征是移动之后的特征。

2.5总结

1、K-L变换
首先若 $E[x]\ne0\Rightarrow x=x-E[x]$
将K-L展开式系数 $a_i$ （亦即变换后的特征）用 $y_i$ 表示，写成向量形式： $y=\Phi^Tx$ 。此时变换矩阵 $\Phi$ 用m个特征向量组成。为使误差最小，不采用的特征向量，其对应的特征值应尽可能小。因此，将特征值按大小次序标号，即
$\lambda_1> \lambda_2>…> \lambda_m>…> \lambda_n>=0$
若首先采用前面的m个特征向量，便可使变换误差最小。

2、通过K-L变换能获得互不相关的新特征。若采用较大特征值对应的特征向量组成变换矩阵，则能对应地保留原模式中方差最大的特征成分，所以K-L变换起到了减小相关性、突出差异性的效果。在此情况下，K-L变换也成为主成分分析（PCA变换）。但是采用K-L变换作为模式分类的特征提取时，要特别注意保留不同类被的模式分类鉴别信息，仅单纯考虑尽可能代表原来模式的主成分，有时并不一定有利于分类的鉴别。

done!

对不起该昵称已存在

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
特征选择和提取

特征选择和提取一、why二、特征选择1、含义2、选取准则三、特征提取1、含义2、K-L变换2.1离散形式的K-L变换2.2正交向量集的确定2.3K-L展开式系数的计算步骤2.4基于K-L变换的特征提取2.5总结一、why1、特征选择和提取是模式识别中的一个关键问题，特征的选择强烈影响分类器的设计及其性能。2、在很多实际问题中，往往不容易找到那些最重要的特征，或受客观条件的限制，不能对它们进行有效的测量；因此在测量时，由于人们心理上的作用，只要条件许可总希望把特征取得多一些；另外，由于客观上的需要，为了
复制链接

扫一扫

专栏目录