数据分析面试【机器学习】总结之-----PCA主成成分分析 常见面试题整理

PCA是一种线性降维方法,通过计算协方差矩阵并选取最大特征值对应的特征向量,来降低数据的维度并最大化方差。在处理高度相关的变量时,PCA有助于去除噪声和发现数据模式。降维的目的是减少预测变量、确保独立性和解释结果。虽然PCA具有简化数据和提取主要特征的优点,但可能会丢失方差小的非主成分中的信息。面试中,理解PCA的计算步骤、旋转变换的重要性以及如何处理相关变量是关键。
摘要由CSDN通过智能技术生成

阅读之前看这里👉:博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。

1.PCA定义

PCA是比较常见的线性降维方法,通过线性投影将高维数据映射到低维数据中,所期望的是在投影的维度上,新特征自身的方差尽量大,方差越大特征越有效,尽量使产生的新特征间的相关性越小

PCA算法的具体操作为对所有的样本进行中心化操作,计算样本的协方差矩阵,然后对协方差矩阵做特征值分解,取最大的n个特征值对应的特征向量构造投影矩阵。

2.PCA具体计算步骤

在这里插入图片描述

3.降维之后的维度怎么确定

  • 可以利用交叉验证,再选择一个很简单的分类器,来选择比较好的 k‘ 的值
  • 可以设置一个比重阈值 t,比如 95%,然后选择满足阈值的最小的 k‘:

∑ i = 1 d ’ λ i ∑ i = 1 d λ i ≥ t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值