机器学习常识 13: PCA

闵帆

已于 2023-06-23 10:55:03 修改

阅读量1k

点赞数 1

分类专栏：机器学习常识文章标签：机器学习人工智能

于 2023-06-01 13:17:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/minfanphd/article/details/130985970

版权

机器学习常识专栏收录该内容

25 篇文章 38 订阅

订阅专栏

摘要: 主成分分析 (principal component analysis, PCA) 是一种有理论依据的无监督特征提取的线性方法.

1. 特征选择与特征提取

特征选择是指从已有的特征里面选择出一个子集. 例如: 身高、体重、性别、年龄、体温、血相等等, 如果要一个人是否患流感，身高、体重等不但没有作用, 反而还会让分类器效果变差. 回头想想 $k$ NN, 在计算距离时考虑一些不相关的特征, 会使得相似的样本变得不相似.
特征提取则是指从已有特征中生成新的特征. 例如: 人们常说自己有多重, 然后表达想减肥的意愿. 但这种想法是错误的, 应该从身高和体重计算 BMI, 以此确定自己是否偏胖. 这里 “从计算 BMI”, 就是一个特征提取的过程.

总的来说, 特征选择相对简单, 而特征提取有很大的相像空间. 后面将会介绍的神经网络, 其最本质的任务就是特征提取.

2. PCA 的基本思想

PCA 有两个特点:

进行无监督的特征提取, 即它不考虑标签;
是一个线性模型, 即新特征均为原始特征的线性组合.

图 1. 线性分类器

如图 1 所示, 二维平面上有一系列数据点. 从它们的角度来看, $x$ 轴和 $y$ 轴两个特征的区分能力都差不多, 特征的取值范围都是 $[- 4, + 4]$ .
然而, 如果我们将这些点围绕原点顺时针旋转 45 度, 就会发现新的 $x$ 轴把样本分得比较开, 而新的 $y$ 轴区分能力比较弱.
再想像一个极端的情况: 这些点全部在一条直线上, 经过旋转后 $x$ 轴起到作用, 而 $y$ 轴完全没有区分能力.
从高等数学的角度, 就是需要求一组正交基, 且排名靠前的基向量 (被称为 主成分) 区分能力更强. 这组正交基的个数有可能少于原始空间的维度, 这时就达到 特征提取 + 降维 的作用.
为了进一步地降维, 设置一个阈值, 当基向量的区分度低于该域值时, 就可以把它抛弃.

3. 优缺点

优点

有良好的数学基础;
有良好的应用.

缺点:

只是一个线性模型;
只能做简单的数据预处理;
无监督模型, 不一定适用于有监督数据.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习常识 13: PCA

主成分分析 (principal component analysis, PCA) 是一种有理论依据的无监督特征提取的线性方法.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。