机器学习总结(lecture 6)算法:主元分析PCA(无监督)

lecture 6:主元分析PCA

目录

1PCA思想

  • PCA通过线性变换将原始数据,变换为一组各维度线性无关的表示

PCA通过原变量的线性组合,寻找一组能最大限度携带原变量的有用信息,且相互不相关的一组新变量,一般通过主元回归检验法、主元贡献率累积和百分比法来确定新变量个数,即降维后样本的维数。
这里写图片描述
LDA与PCA的比较

(1)PCA与LDA非常类似,LDA输入数据带标签,是有监督的学习,LDA可以作为独立算法存在,给定训练数据得到判别函数,对数据预测。
(2)PCA输入数据不带标签,是无监督的学习,数据预处理方法,将原始数据降低维度,降维后的数据之间方差最大(投影误差最小)

有一组N维向量,降到K维(K 小于N),如何选择K个基,才能最大程度的保留原有信息
这里写图片描述
选择一个方向,所有数据投影到这个方向的直线上,用投影值表示原始记录,二维降到一维,希望投影后的投影值尽可能分散,寻找一组基,使得所有数据,变换为这个基上的坐标表示后,方差最大

2最大方差法

这里写图片描述

3PCA一般步骤

这里写图片描述
(1)数据预处理,消除数据在数量级和量纲上的差异,且进行零均值化
(2)m个n维样本,求出协方差矩阵 C=1mXXT C = 1 m X X T
(3)求出C的特征值,特征向量,将特征值排序
(4)选出前面最大的几个特征值,其和占所有特征值和的80%以上,找出对应的特征向量组成矩阵P
(5)Y=PX即为降维后的数据

4PCA协方差SVD分解

下面介绍线性回归与2维PCA的区别:虽然都是找一条直线去拟合但是计算loss的方式不同(垂直),PCA没有标签Y(非监督)。

  • PCA和LR是不同的算法,PCA计算的是投影误差,而LR计算的是预测值与实际值的误差。 PCA中只有特征没有标签数据y,LR中既有特征样本也有标签数据。

  • 求出协方差矩阵的特征值及对应的特征向量(使用svd函数)。
  • 特征向量最能代表原数据

这里写图片描述
这里写图片描述
SVD可以分解不是方阵的矩阵
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值