机器学习实战——PCA和SVD

本文探讨了机器学习中数据降维的方法,包括PCA(主成分分析)和SVD(奇异值分解)。PCA通过降低数据的复杂性和识别关键特征来简化数据,但可能丢失信息。SVD则通过矩阵分解简化数据并去除噪声,但也存在解释性问题。因子分析和独立成分分析也被提及作为数据降维的手段。
摘要由CSDN通过智能技术生成


一、 利用PCA简化数据

1、对数据进行降维的原因

  • 使得数据更容易使用;
  • 降低很多算法的计算开销;
  • 去除噪声
  • 使得结果更容易理解。

2、 主成分分析PCA(Principal Component Analysis)

数据从原来的坐标系转换到了新得坐标系。第一个新坐标轴选择的是原始数据集中方差最大的方向,第二个选择的和第一个坐标轴正交且具有最大方差,此过程一直重复,重复次数为原始数据中特征的数目。我们发现,大部分方差都包含在最前面的几个新坐标轴中。因此可以忽略余下的坐标轴,即对数据进行了降维处理。

3、 PCA的优缺点

  • 优点:降低数据的复杂性,识别最重要的多个特征;
  • 缺点:不一定需要,可能会损失信息;
  • 使用数据类型:数值型数据。

4、 PCA原理

数据的最大方差给出了数据最重要的信息,我们首先选择覆盖数据最大差异性的坐标轴,然后选择与第一条坐标轴垂直的覆盖数据次大差异性的坐标轴,利用PCA我们实际上是将坐标轴旋转到了数据角度上那些最重要的方向。坐标轴旋转并没有降低数据的维度。通过降维处理,我们可以同时获得SVM和决策树的优点:一方面得到了和决策树一样简单的分类器,另一方面分类间隔和SVM一样好。
通过对数据集的协方差矩阵及特征值分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值