Spark-机器学习PCA降维10

PCA是一种常见的线性降维算法,常用于简化数据集和特征量。在Spark中,PCA通过计算协方差矩阵和进行特征分解来实现。此博客介绍了PCA在图像处理如人脸识别中的应用,并提供了在Iris数据集上的降维案例,包括数据预处理、PCA降维以及使用决策树进行预测的效果评估。
摘要由CSDN通过智能技术生成

PCA降维算法

从高维度变为低维度的过程就是降维

例如拍照就是把处在三维空间中的人或物从转换到作为二维平面的照片中

降维有线性的、也有非线性的方法。在机器学习中可以简化运算,减少特征量

PCA算法是一种常用的线性降维算法,算法类似于“投影”

降维简化了数据集,故可以视为一个压缩过程,在压缩过程中可能会有信息丢失

PCA除可以用来精简特征,还可以应用在图像处理中,例如基于PCA算法的特征脸法,它可以用来人脸识别

PCA是基于K-L变换实现的一种算法

PCA算法在实现上用到了协方差矩阵,以及矩阵的特征分解

基本主要内容在于求出协方差矩阵,然后求协方差矩阵的特征值与特征向量

求出协方差矩阵C的特征值与特征向量 (SVD分解)
将特征向量按照特征值的大小从上至下依次排列,取前k行,作为矩阵P

求出P与X矩阵叉乘的结果,即为降维值k维的m条数据

案列

读取数据

数据集

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值