4.3.2无监督学习（二） - 主成分分析（PCA）

最新推荐文章于 2023-08-29 09:10:24 发布

进击的橘子猫

最新推荐文章于 2023-08-29 09:10:24 发布

阅读量7.2k

点赞数 2

分类专栏：数据分析与挖掘框架 R模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Orange_Spotty_Cat/article/details/80394302

版权

简介

PCA是一种针对连续变量的降维算法，它的根本目的就是选取能够最大化解释数据变异的成分，将数据从高维降到低维，同时保证各个维度之间正交（无相关性）。

一句话解释版本：

PCA是一种降维方法，它能把很多个自变量转换成少许相互不相关的新自变量，从而在保证数据变化被抓取的前提下减少自变量个数并消除自变量间相关性。

数据分析与挖掘体系位置

主成分分析不是一种预测模型，它是数据降维的方法。此外，PCA并没有一个预测主体，因此属于无监督学习。

在无监督学习中，常见的方法有如下三种：

降维分析
聚类分析
关联分析

本篇主要介绍降维分析中的主成分分析方法，即PCA。

此方法在整个数据分析与挖掘体系中的位置如下图所示。

主成分分析的定义

主成分分析简称PCA，英文全称Principal Component Analysis。它是无监督学习中降维模型中的一类，在实际的数据探索与建模中应用十分广泛。

上面的说法较为晦涩，如果把上面的话说的平民化一些，就是：PCA能够从旧的相互可能相关的自变量中衍生出新的互不相关的自变量，从而减少自变量的个数，同时又能保证数据的变化被大幅度的解释。

主成分分析的理解与计算

主成分分析的具体方法是对变量的协方差矩阵（Co-variance Matrix）或相关系数矩阵（Correlation Matrix）求取特征值和特征向量。经证明，对应最大特征值的特征向量，其方向正是协方差矩阵变异最大的方向，依次类推，第二大特征值对应的特征向量，是与第一个特征向量正交且能最大程度解释数据剩余变异的方向，而每个特征值则能够衡量各方向上变异的程度。因此，进行主成分分析时，选取最大的几个特征值对应的特征向量，并将数据映射在这几个特征向量组成的参考系中，达到降维的目的（选择的特征向量数量低于原始数据的维数）。

上图显示的是人口量（Population）与广告投入金额（Ad Spending）的散点图。图中绿色的线就代表着PCA中的第一个主成分。从图上能明显的看出来，绿色直线所在的区域是粉色点变化性（Variability）是最高的区域（数据最容易在绿线上变动），也就是说，绿色的直线是离图上所有粉色点（Observations）最近的一条线。这说明，如果把图上所有粉色的点投射到线上，计算所有点到绿线的距离后并加总，得到的结果数值是最小的。投射到其他任意直线得到的结果都要比投射在绿线产生的结果大。

最低0.47元/天解锁文章

进击的橘子猫

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
4.3.2无监督学习（二） - 主成分分析（PCA）

主成分分析简称PCA，英文全称是Principal Component Analysis。它是无监督学习中降维模型中的一类，在实际的数据探索与建模中应用十分广泛。
复制链接

扫一扫

专栏目录

进击的橘子猫 CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

6万+: 周排名

36万+: 总排名

77万+: 访问

: 等级

3476: 积分

719: 粉丝

586: 获赞

85: 评论

2869: 收藏

私信

关注

热门文章

分类专栏

最新评论

3.4.2数据标准化（一） - Z-Score标准化
Flynn1392: CSDN是越来越封闭了
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 或者说，文章里出现的混淆矩阵默认一个前提：以猫为例(猪狗同理)，真猫都会被检测为猫猪狗中的一种，并且检测到的假猫只来自猪或者狗。这里忽略了背景问题：一是真猫没有被识别为猫猪狗，而当作背景漏检了；二是背景区域(非猫猪狗)也可能被检测为猫。所以想问一下：当背景作为一个类，而未被标注时，应该怎样计算ACC？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 请问ACC的定义“分类模型所有判断正确的结果占总观测值的比重”中“观测值”的定义是什么？比如图片中目标检测场景：狗数真实值为10，模型认为有5只狗、2只猫、剩余3只认为不属于已知类别（相当于认为是背景），那这3只计入观测值吗？同理，牛数真实值为10，模型认为有12头牛，其中包含10头牛和2个背景（背景被误检测为牛），那这2个背景计入观测值吗？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
Mr·小鱼: 博主说错了，我查了一下。第一类错误，把真当假，也就是FN。第二类错误，把假当真，也就是FP。
3.4数据预处理（四） - 数据转换（Data Transform）
撒野448: 大佬你好，聚类的链接点进去是空的，请问文章还在吗？很想知道怎么聚类！谢谢~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。