机器学习笔记--常见算法(4)--主成分分析介绍及代码实现

最新推荐文章于 2019-06-29 16:13:33 发布

SkyeBCI

最新推荐文章于 2019-06-29 16:13:33 发布

阅读量909

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Void_worker/article/details/81949268

版权

教程：
一篇深入剖析PCA的好文：(运算过程写的非常详细)
https://www.cnblogs.com/hadoop2015/p/7419087.html

https://www.cnblogs.com/NextNight/p/6180542.html
https://www.cnblogs.com/lliuye/p/9156763.html

主成分分析(PCA):

0.背景

真实的训练数据存在各种各样问题：
1、(冗余) 比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。
2、 (相关)拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩。我们知道要学好数学，需要有浓厚的兴趣，所以第二项与第一项强相关，第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢？
3、拿到一个样本，特征非常多，而样例特别少，这样用回归去直接拟合非常困难，容易过度拟合。比如北京的房价：假设房子的特征是（大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数），搞了这么多特征，结果只有不到十个房子的样例。要拟合房子特征->房价的这么多特征，就会造成过度拟合。
4、这个与第二个有点类似，假设在IR中我们建立的文档-词项矩阵中，有两个词项为“learn”和“study”，在传统的向量空间模型中，认为两者独立。然而从语义的角度来讲，两者是相似的，而且两者出现频率也类似，是不是可以合成为一个特征呢？
5、 (噪音)在信号传输过程中，由于信道不是理想的，信道另一端收到的信号会有噪音扰动，那么怎么滤去这些噪音呢？

在这种情况下，需要一种特征降维的方法来减少特征数，减少噪音和冗余，减少过度拟合的可能性。
降维技术作为数据预处理的一部分，即可使用在监督学习中也能够使用在非监督学习中。而降维技术主要有以下几种：主成分分析(Principal Component Analysis，PCA)、因子分析(Factor Analysis)，以及独立成分分析(Independent Component Analysis, ICA)。其

最低0.47元/天解锁文章

SkyeBCI

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记--常见算法(4)--主成分分析介绍及代码实现

0.背景1.主成分分析(PCA)介绍1.1 PCA的优化目标1.2 PCA算法思路1.3 PCA算法伪码2.PCA理论基础2.1 协方差矩阵2.2 特征值和特征向量3.PCA算法实现代码0.背景真实的训练数据存在各种各样问题： 1、(冗余) 比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速...
复制链接

扫一扫