特征工程-特征提取

特征工程

1、数据降维
2、特征提取
3、特征选择

二、特征提取

​ 特征提取是一个特征空间上的变换(映射),可以是线性和非线性的。所以特征提取与特征选择的不同之处在于,特征提取之后的特征已经不是原始特征了,而特征选择则是在原始的特征中选择出有价值的特征。既然,特征提取是一个空间上的映射,那么特征提取的问题就变成了选择合适的投影方向。选择合适的投影的方向就是必然有一个目标(保持损失最小),即目标函数。特征提取的方法很多,每一种方法都有因各自的目标不同而有不同的特性,下面笔者目标的形式将特征提取分为三类:成对保持单点保持

一、MDS(成对保持):

​ 与其说Multiple Dimensional Scaling (MDS)是一种降维方法,不如理解为一种特征提取的思想。其特征提取的思想是成对保持(相似性,距离),如ISOMAP多维尺度分析与等距映射,谱哈希等。都是成对的保持数据在原始空间的关系,将数据映射到一个低维的空间。因此,为了描述样本点在原始空间的成对关系,我们需要一个相似性度量矩阵 S ∈ R m × m S\in R^{m\times m} SRm×m,其中 m m m为样本数据集大小,样本数据集 X ∈ R r × m X\in R^{r\times m} XRr×m。为了使得映射到低维的空间后相似性度量矩阵的损失最小,我们可以用下式表示:
min ⁡ ∑ i j ∣ ∣ S i j − S ( Z i , Z j ) ∣ ∣ 2 s . t . Z Z T = m I \min \sum_{ij}||S_{ij}-S(Z_{i},Z_{j})||^2\\ s.t. ZZ^{T}=mI minijSijS(Zi,Zj)2s.t.ZZT=mI
其中 Z i ∈ R d × 1 Z_{i}\in R^{d\times 1} ZiRd×1表示样本 X i X_{i} Xi在低维空间的表示,其中约束条件为规范化约束。 S ( Z i , Z j ) S(Z_{i},Z_{j}) S(Zi,Zj)表示样本在低维空间的相似性度量,这里我们采用简单的度量 S ( Z i , Z j ) = Z i T Z j S(Z_{i},Z_{j})=Z_{i}^TZ_{j} S(Zi,Zj)=ZiTZj。那么,目标函数可以简化为:
min ⁡ ∑ i j ∣ ∣ S i j − Z i T Z j ∣ ∣ 2 ⇔ max ⁡ S Z T Z s . t . Z Z T = m I \min \sum_{ij}||S_{ij}-Z_{i}^{T}Z_{j}||^2\Leftrightarrow \max SZ^{T}Z\\ s.t. ZZ^{T}=mI minijSijZiTZj2maxSZTZs.t.ZZT=mI
到此,目标函数已非常清晰,类似于谱聚类,把 Z Z Z看作由一维一维的向量构成,那么 S Z T Z Z T = λ Z T SZ^TZZ^T=\lambda Z^T SZTZZT=λZT,目标函数问题就是 S S S的前 d d d个最大特征值, Z Z Z即为 S S S的最大特征值对应的特征向量构成的矩阵。

由SVD分解, S = V ∧ V T S=V\wedge V^T S=VVT,其中 ∧ i i \wedge_{ii} ii S S S对应的前 d d d个最大特征值,为 V V V特征值对应的特征向量构成的矩阵,那么有:
Z = ∧ 1 / 2 V T Z=\wedge^{1/2}V^T Z=1/2VT
在确定投影空间的向量表示 Z Z Z之后,我们在回过头来求投影向量 W W W有:
Z = W T X Z=W^TX Z=WTX
其中 W ∈ R r × d W\in R^{r\times d} WRr×d,可见MDS是一个线性变换。在成对保持的思想下,换用不同的相似性度量可以导出不同的方法,另外添加不同的约束条件,也可以导出不同的方法,如哈希学习。

二、PCA(单点保持)

​ PCA是最常用的一种无监督数据降维方法,既可以进行特征提取,更一般用于数据可视化分析。众所周知,PCA有两种解释,最大方差解释,最小重构损失解释,最大方差解释是一种较合理性解释,即寻找方差最大的方法最能反映样本的区分度,信息量最大(相对而言,如果数据在某一维度都等于3,那么自然方差为0,信息量无意义)。但是在机器学习中,我们最常用的目标还是损失最小,所以个人觉得第二种解释才是PCA的根本,而最大方差解释更像是形象化解释。所以,我们从最小重构损失解释推导出最大方差解释:

​ 假设有样本数据集 X ∈ r × m X\in r\times m Xr×m,投影方向为 W = { w 1 , w 2 , . w i . , w d } , w i ∈ R r × d W=\{ w_{1},w_{2},.w_{i}.,w_{d}\},w_{i}\in R^{r\times d} W={ w1,w2,.wi.,wd},wiRr×d,其中 w i w_{i} wi是一组标准正交基,即 ∣ ∣ w i ∣ ∣ 2 = 1 , w i T w j = 0 ⇒ W T W = I ||w_{i}||^2=1,w_{i}^Tw_{j}=0 \Rightarrow W^TW=I wi2=1,wiTwj=0WTW=I,那么在 W W W坐标系下,样本的数据集表示为

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值