第十五章 降维dimensionality reduction

课时115 目标I:数据压缩
在这里插入图片描述建立新的特征z1,只需要一个数就能确定z1所在的位置。通过投影到绿色的线上,只需要一个数字就可以表示每个训练样本的位置。这样就可以把内存减半,后面会讲到这也可以让某些算法运行得更快。
在这里插入图片描述
3D降维到2D:把像一团云一样,但近似在一个平面的点们投影到一个平面上。

课时116 目标II:可视化
降维也有利于数据的可视化。eg.每个国家有50个特征,可以大致用两个特征表示,国家/经济/健康总大小和人均国土/经济/健康大小。在这里插入图片描述在这里插入图片描述
在这里插入图片描述
课时117 主成分分析问题规划1 principal component analysis problem formulation
PCA是最流行的降维算法。
找的投影的直线应该使得蓝色线段的长度最短,即投影误差最小。在这里插入图片描述
n维降到k维:找到k个向量使得投影误差最小。在这里插入图片描述
图与线性回归有点像,实际上是完全不一样的算法,最小化的目标不一样,而且降维也没有要预测的y:
在这里插入图片描述

课时118 主成分分析问题规划2
pca之前要做数据预处理:先做均值归一化,即让每个x减去均值,使x的均值为0,再做feature scaling.在这里插入图片描述
pca算法做的:需要计算上图向量u和z:
N维降到K维,先计算协方差covariance matrix(大写的sigma)(像求和符号,是nn的向量),再求特征向量eigenvector,得出的U矩阵也是nn的矩阵,要提取前k个向量(前k列)u(1)到u(k),得到Ureduce,再乘以X。 在这里插入图片描述
在这里插入图片描述
总结一下PCA算法:(计算Siama的式子和老师写的用蓝色框起来的式子数学上是一样的)
在这里插入图片描述

课时119 主成分数量选择choosing the number of principal components
如何选择K:
在这里插入图片描述
在这里插入图片描述

课时120 压缩重现
回到未压缩的数据表示,恢复到N维,即reconstruction:Xapprox=Ureduce·z.
在这里插入图片描述
在这里插入图片描述

课时121 应用PCA的建议
PCA学习只能用在训练集上来拟合参数,而不是交叉验证集或测试集。定义了x到z的映射后,可以应用这个映射到交叉验证集和测试集。在这里插入图片描述在这里插入图片描述
不要把PCA当成防止过拟合的方法,还是使用正则化的方法来防止过拟合,因为PCA不使用标签,会丢失一些有价值的信息。
用PCA之前首先尝试使用x(i),只有在学习算法运行太慢,或者需要的内存或硬盘空间太大因此需要去压缩数据表示时,再用PCA。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值