数据挖掘：特征提取——PCA与LDA

最新推荐文章于 2025-08-12 11:27:17 发布

AvenueCyy

最新推荐文章于 2025-08-12 11:27:17 发布

阅读量8.4k

点赞数 11

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签：机器学习 pca降维数据挖掘特征值分解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AvenueCyy/article/details/105249265

本文介绍了PCA和LDA两种常见的数据降维方法。PCA是一种非监督降维技术，通过最大化方差保留信息，适用于聚类和降噪。LDA是有监督降维，关注类别间差异，适合分类任务。PCA不考虑类别信息，而LDA利用标签使得类别间距离最大化，内部方差最小化。

在数据维度很高时，我们会从中提取出一些有用的特征，降低数据处理的维度，方便计算，这个过程也被叫做降维。
一般常用的降维方法有PCA和LDA。

PCA：非监督降维，降维后数据的方差尽可能的大（方差大，含有的信息量就大）
LDA：有监督降维，降维后，组内（同一类别）方差小，组间（不同类别之间）方差大

注：对原始数据进行线性变换，比如上面左图的二维数据，x1轴代表年龄，x2轴代表收入，这时候要是按照对角线进行线性变换，二维虽然降到了一维，但是无法解释这个新的一维特征的具体含义。即变换后的数据不具备可解释性。
因此，降维的操作比较适合在高维度下进行，若想要进行有解释性的特征选择，可以用随机森林的重要性或者Lasso回归，带L1正则化的逻辑回归等。

主成分分析PCA

PCA的直观理解

PCA的一般用途：

聚类：把复杂的多维数据转为少量数据，易于分簇
降维：降低高维数据，简化计算，达到数据降维，压缩，降噪（去掉不太重要的特征）的目的

PCA的作用：

将原有的d维数据集，转为k维数据，k<d
新生成的k维数据尽可能多的保留原来d维数据的信息
第一个图，投影到对角线上的话，保留的数据信息会多一些。

沿着对角线方向，投

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。