Python学习第三篇:pca算法

本文介绍了PCA(主成分分析)算法,旨在从大量特征中提取主要信息。PCA通过线性变换找到数据的主要成分,去除无关特征。文章通过学生成绩的例子解释了PCA的必要性,并提供了Python创建数据集及PCA实现的示例代码。
摘要由CSDN通过智能技术生成

一,为什么使用pca算法

1,在实际的数据样本中往往存在多个特征,即在一张数据表格中存在多列,每一列代表一个特征。我们需要在这么多的数据中提取有用的数据信息,但是在整体的数据样本中有部分数据是无用的,或者说是该数据对整体的数据样本影响不大,如下学生成绩图

显而易见,政治成绩所有学生都是一样,所以我们在分析数据时,可以不用考虑整治成绩。但是如下学生成绩图

我们无法一眼看出在数据分析时,哪些特征是可以不加考虑的。pca算法的目的就是在大量的特征中找到主要的特征。

二,pca算法讲解

1,什么是线性相关?

给定向量组A:a1,a2,a3,a4,...aN。假设存在k1,k2,k3,k4,...kN。使得

a1*k1+a2*k2+a3*k3+...+aN*kN=0成立

则向量组A是线性相关的,否则A是线性无关

通俗的讲,线性相关就是指向量组中至少一个向量可以由其他向量线性表示

2,信噪比

在信号处理过程中,认为信号具有较大的方差,噪声具有较小的方差。信噪比就是方差比,信噪比越大,主成分提取就越准确。

3,样例分析

在学生成绩图中,有5个特征,在这些特征之中可能存在部分特征

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值