python pca 分类变量_python与机器学习入门(9)PCA主成分原理与实现

本文介绍了PCA(主成分分析)的概念,作为无监督学习的降维方法,通过PCA提取葡萄酒数据集的主要特征进行分类。在Python中,使用PCA对数据进行特征缩放和降维,然后结合逻辑回归模型,达到了97%的分类准确率。
摘要由CSDN通过智能技术生成

1.降维

简单粗暴的说:降低自变量的个数,可以简化问题,便于分析

比方说:在***多元线性回归***中提到的,并不需要所有的自变量,只需要挑选出几个最重要的自变量,再去进行分析

同时,这也有利于进行可视化分析

2.降维的方法特征选择

1.反向淘汰 2.顺向选择 3.双向淘汰 4.信息量比较

思想是:原有的自变量不变,只进行提取

比如10个自变量,提取出5个进行分析

特征提取

1.PCA主成分 2.kernel PCA

就是提取的新的5个自变量已经不是原来的自变量了,即重新排列组合得到

3.PCA介绍

一种无监督模型,在具有m条自变量的数据中,PCA从中提取出p个新的自变量,p≤m,可以较好地解释数据自变量的方差(差异性)

注意:不关乎因变量是什么

其实,PCA也可以叫寻找最大方差的方向,将下图的两类数据运用一次PCA

得到下面的图,可以观察到,在PC1的方向上,数据的差异是比较大的,PC2的方向上数据的差异较小,那就可以说,PC1是最大方差的方向

找到了最大方差的方向之后,其他的数据就很可能是噪音了,便可以删除

4.PCA的数学原理X:m个自变量的矩阵,对X进行特征缩放

A:X的方差矩阵

A的特征值与特征向量,并大到小排列

选取P:解释方差的百分比,并选取前P个特征值,使得:

解释公式: 前P个就是最大的那些P,使得这些值的和,比上所有特征值的和大于等于P对应前P个特征值的特征向量,即为所选取的主成分

运用投射矩阵(此矩阵为选取的P个特征向量组成),维度由m变为了p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值