机器学习 | 线性方法降维(理论篇)

本文探讨了机器学习中的降维技术,包括特征选择和特征提取。重点讲解了特征提取,特别是主成分分析(PCA)和线性判别分析(LDA)。PCA通过最大化样本投影后的方差进行降维,而LDA则结合类别信息,最小化相同样本的方差并最大化不同样本的间隔。降维有助于在低维空间中保留关键信息,降低计算复杂性。
摘要由CSDN通过智能技术生成

科幻名著《三体》里有句犀利的台词——降低维度用于攻击。不过,这个“降维”绝对不只是科幻界的专用名词。

在机器学习中,降维同样重要。很多人把降维(Dismensionality reduction),特征选择(feature selection),以及特征提取(feature extraction)混为一谈,因为这三者都削减了进入模型的变量个数。

降维是一个更为宽泛的概念,它包括特征选择和特征提取。

  • 特征选择
    降维过后,最终使用的变量个数减少了,但特征选择挑选的是特征子集,也就是说,保留下来的所有特征都在原来的特征集中可以找到。
  • 特征提取
    而特征提取所提取的是不再是特征子集,而是原来特征的线性(或者非线性)组合,我们经过特征提取后的变量都是新的变量,它的本质是将原始高维空间向低维空间投影,我们所使用的特征不仅少了,而且不再是原来的特征。

我们引入一个更为重要的概念——距离。
- 距离
每个样本可以表示为一个向量,也就是高维空间的一个点,距离可以用来衡量样本之间的相似度。但是在高维空间,距离的计算会变得非常困难,而我们关心的问题可能在低维空间就会得到很好的解决。但这不意味着低维空间只是对高维空间的近似,有些问题中,高维空间会增加很多噪声,而在低维空间中会得到比高维空间更好的性能。

因此,我们讨论一下降维的几种方法,特征选择的方法会在后续文章中更新,在本文中降维特指“特征提取”。降维有两种分类方法:其一,根据目标值(target)的参与与否,分为有监督降维和无监督降维;其二,根据高维空间与低维空间的关系,分为线性降维和非线性降维。

我们对每种方法分举一例:

线性\监督 无监督 监督
线性 PCA LDA
非线性 ISOMAP KLDA


  • PCA(Principal component analysis)主成分分析

数学准备
1. 协方差矩阵: 随机变量组成的向量,每组随机变量的协方差构成的一个对称矩阵,其对角元是每组随机变量的方差

2. 矩阵的对角化:对于矩阵M,有可逆矩阵V,使得

成为对角矩阵,而M的特征值对应的特征向量组成了该可逆矩阵V。(换而言之,矩阵V的每一列对应着M的特征向量)

3.正交矩阵:转置矩阵等于其逆矩阵,构成矩阵的列向量彼此正交。

4.数据中心化:对每组随机变量减去均值,再除以标准差。本质是将每组随机变量变为标准的高斯分布。

PCA(Principal component analysis)是用投影的方法将高维空

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值