Stanford 机器学习 Dimensionality Reduction

14.3 Principal Component Analysis Problem Formulation

这里写图片描述
我们想要找到的向量是一个向量,并且原样本点到投影后的样本点的距离之和最小。
等价于,使得投影后样本点的方差最大化。
这里写图片描述
将3-d转到2-d时,应该找到两个向量表示这个投影的平面。
这里写图片描述
线性回归和PCA的差别,线性回归优化的是预测值和真实值的距离,而PCA优化的目标是到投影点的距离,并且PCA是不用来预测y值的。

14.4 Principal Component Analysis Algorithm

这里写图片描述
在使用PCA算法之前,要进行预处理,其中 μj 是第j个特征所有值的均值。
这里写图片描述
求出协方差矩阵,并对协方差矩阵进行奇异值分解,分解后选取前k个向量就是我们需要的向量。
这里写图片描述
在这里,主要支出了协方差矩阵的另一个求法,sigma= 1mXTX
Ureduce = n*k, xi = n* 1,可以得到 zi=UTreducexi = k*1,此时,本来n维的数据就变成了k维。

14.5 Choosing the Number of Principal Components

这里写图片描述
给出了两个参数,第一个参数是数据到映射点的平均距离,第二个是数据的方差。通过两个的比值作为选取k值的标准,如果比例>0.99,我可以称%99的误差被保留了。
这里写图片描述
给出了算这个比例的另一个方式,就是通过奇异值分解后的S矩阵。

14.7 Advice for Applying PCA

1 不要将PCA用于防止过拟合
2 在使用PCA之前,先跑原始数据,仅当需要使用PCA时,再使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值