主成分分析法(PCA)

算法简介

主成分分析法是一种特征提取的方法。它是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观察数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有利工具,也用于其他机器学习方法的前处理。
关键理论或技术技术。

特征提取

什么是特征提取算法呢?假设我们有一系列的样本X,每个X是N维的。举例来说,我们有一车西瓜作为样本,其中每一个西瓜都有大小、颜色、形状,重量等N个特征。但是这些特征中有很多特征是相互冗余的,比如西瓜的大小和重量就发生了冗余,因为大西瓜的重量一定也大。PCA所作的事情就是对这些冗余数据进行消除,只留下最有用的,换句话说,就是对数据进行降维。
我们可以从数学的角度进行阐述:
对于一个n维列向量x,我们可以构造一个m*n维的矩阵A,和一个m维列向量b,使得Y=Ax+b,得到的Y是m维的列向量,我们就可以用Y代替原来的X,从而实现降维。
在这里插入图片描述

算法主要思想以及公式推导

在这里插入图片描述
推导过程中用到了拉格朗日乘子法,不熟悉的同学可以复习一下高等数学的内容,下面给出简要的过程。
在这里插入图片描述

最后我们对PCA的流程做一个梳理

在这里插入图片描述

总结

降维技术使得数据变得更易使用,并且他们往往能够去除数据中的噪声,使得其他机器学习任务更加精确。降维往往作为预处理步骤,在数据应用到其他算法之前清洗数据。
PCA可以从数据中识别其主要特征,它是通过沿着数据最大方向差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴,后续坐标轴则与前面的坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

  • 20
    点赞
  • 112
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值