PCA 降维

PCA(主成分分析)是一种常用的降维技术,通过找到数据中方差最大的方向来简化数据。主要原理是通过对数据协方差矩阵的特征值和特征向量分析,找出数据的主要成分。PCA优点在于降低数据复杂性,识别重要特征,但可能损失部分信息。适用于数值型数据。在实际应用中,包括去除平均值、计算协方差矩阵、保留最大特征值对应的特征向量,最后将数据转换到新空间中。
摘要由CSDN通过智能技术生成

PCA 简化数据

通俗理解: 找出一个最主要的特征 进行分析
例子: 考察一个人的智力情况 直接看数学成绩就行
例子: 观看电视 将显示器的百万像素转化为一个三维图像
重点:
降维技术
主成分分析(PCA)
对半导体数据进行降维处理

降维技术

1.数据集更容易使用
2.降低算法的计算开销
3.去除噪声
4.使得结果易懂 ---(有利于可视化)

几种不同的降维方法:
1. 主成分分析(Principal Component Analysis, PCA)
通俗理解: 找出一个最主要的特征 进行分析
例子: 考察一个人的智力情况 直接看数学成绩就行
原理简介:
在PCA中,数据从原来的坐标系转化到了新的坐标系, 新坐标系的选择是由数据
本身决定的.
第一个新坐标轴选择的是原始数据中方差最大的方向
第二个新坐标轴的选择是和第一个坐标轴正交且具有最大方差的方向
该过程已知重复 重复次数为原始数据中特征的数目
会发现: 大部分方差后包含在最前面的几个新坐标轴中 因此可以忽略余下的坐标轴 即对数据进行降维处理

2. 因子分析(Factor Analysis)
通俗理解: 将多个实测变量转化为少数几个综合指标   反映一种降维的思想: 通过降维将相关性高的变量聚在一起 从而减少需要分析的变量的数量 而减少问题分析的复杂性
例子: 考察一个人的整体情况 就组合3样成绩(隐变量), 看平均成绩就行
原理简介:
    在因子分析中, 假设在观察数据的生成中有一些观察不到的隐变量
    假设观察数据是这些隐变量和某些噪声的线性组合 那么隐变量的数据可能比观察数据的数目少
    也就是说找到隐变量就可以实现数据的降维

3.独立成分分析(Independent Component Analysis, ICA) 
通俗理解: ICA认为观测信号是若干个独立信号的线性组合 ICA要做的就是解混过程
例子: 去KTV唱歌 想辨别唱的是什么歌曲? ICA是观察发现原唱唱的一首歌(2个独立的声音 (原唱/主唱))
ICA假设数据是从N个数据源生成的, 这一点和因子分析类似
假设数据为多个数据源的混合观察结构 这些数据源之间在统计上是相互独立的
在PCA中只假设数据是不相关的
如果数据源的数目少于观察数据的数目 则可以实现降维过程

PCA 主成分分析
优点:降低数据的复杂性 识别最重要的多个特征
缺点:不一定需要, 且可能损失有用信息
适用数据类型: 数值型数据

PCA是如何降维的? 移动坐标轴
1.1 移动坐标轴
第一条坐标轴旋转到覆盖数据的最大方差位置 —–> 数据的最大方差给出了数据的最重要的信息
第二条坐标轴是覆盖数据次大差异性的坐标轴

找到坐标轴之后如果降维?
坐标轴的旋转并没有减少数据的维度
考虑到决策树 每次都是基于一个特征来做决策的  分类规则简单 但分隔平面难以保持质量
考虑到SVM  分类规则复杂 但是分隔平面优异
PCA降维可以同时过得SVM和决策树的优点

PCA降维的基本过程
主成分分析
第一个主成分就是数据差异性最大的方向提取出来
第二个主成分则是来自于数据差异性次大的方向 并且该方向与第一个主成分方向正交
通过数据集的协方差矩阵以及特征值分析 就可以求出这些主成分的值

一旦得到了协方差矩阵的特征向量 就可以保留最大的N个值 这些特征向量也给出了N个最重要特征的真实结构
可以通过将数据乘上这N个特征向量 而将他转化到新的空间

特征值分析是线性代数中的一个领域 可以通过数据的一般格式来揭示数据的’真实’结构
即: 常说的特征向量和特征值
Av=λv,vλ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值