PCA介绍以及简单实例

最新推荐文章于 2024-04-18 01:30:21 发布

mym_74

最新推荐文章于 2024-04-18 01:30:21 发布

阅读量1.4k

点赞数 3

分类专栏：机器学习算法文章标签： PCA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mym_74/article/details/85102409

版权

机器学习算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

目录

数学基础
基变换
特征值，特征向量
线性变换
协方差
矩阵对角化
PCA简单实例

简介

PCA全称Principal Component Analysis，即主成分分析，是一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示，以此来提取数据的主要线性分量。

数学基础

向量的表示

内积

$a_{1},a_{2},\cdots ,a_{n})^T\cdot (b_1,b_2,\cdots,b_n)^T = a_1b_1+a_2b_2+\cdots+a_nb_n$

几何解释

$A\cdot B = \left | A \right |\left | B \right |cos(a)$

设向量B的模维1 ，则A与B的内积值等于A向B所在的直线投影的矢量长度

向量表示为（3,2）

实际上表示线性组合

$x(1,0)^T + y(0,1)^T$ （1,0）就是X轴，（0,1）就是y轴

基变换

基是正交的（即内积为0 ，或者直观的说相互垂直）

要求：线性无关

线性无关.jpg

将（3,2）映射到新的基上 xy

变换：数据与一个基做内积运算，结果作为第一个新的坐标分量，然后与第二个基做内积运算，结果作为第二个新坐标的分量

将数据（3,2）映射到基中的坐标

基表换：

基变换.jpg

特征值，特征向量

若A为n阶方阵，如果存在一个非零向量X使得 $ Ax = \lambda x $ 则标量 $ \lambda $ 为特征值（eigenvuale) , x为特征向量（eigenvector)

线性变换

一个矩阵与一个列向量A相乘，得到一个新的列向量B，则称该矩阵未列向量A到列向量B的线性变化

我们希望投影后的尽可能分散，而这种分散程度，用方差来表述

$Var(a)=\frac{1}{m}\sum_{i=1}^{m}\left ( a_{i} -u \right )^{2}$

寻找一个一维基，使得所有数据变化大这个基上的坐标表示后，方差值最大

解释：方差越大，说明数据越分散，通常认为，数据的某个特征维度上数据越分散，该特征就越重要

对于更高的维度，比如3维降到2维，在第1维得到最大的方差值后，我们希望第2维也是有最大方差，很明显，直接得到的第2维于第1维"几乎重合" ，所以它们应该有其他约束条件————正交

解释：从直观上说，让2个坐标尽可能表示更多的原始信息，我们是不希望它们之间存在有（线性）相关性的，因为相关性说明2个字段不是完全独立的，必然存在重复表示的信息

数学上用2个向量的协方差来表示其相关性

$\frac{1}{m}\sum_{i=1}^{m}\left (a_{i} - \mu _{a} \right )\left ( b_{i} - \mu _{b}\right )$

当协方差为0时，表示2个向量线性不相关

所以优化的目标是：

将一组N维向量降为K维（0<K<N),其目标是选择K个单位正交基，使得原始数据变换到这组基上后，各向量间的协方差未0 ，而向量的方差尽可能大

协方差

协方差用于表示变量间的相互关系，变量间的相互关系一般有三种：正相关，负相关和不相关。

** 正相关：**假设有两个变量x和y，若x越大y越大；x越小y越小则x和y为正相关。

** 负相关：**假设有两个变量x和y，若x越大y越小；x越小y越大则x和y为负相关。

** 不相关：**假设有两个变量x和y，若x和y变化无关联则x和y为负相关。

假设有2个变量a和b 构成矩阵X（通常都是sample作为行向量，特征作为列向量）

$\begin{pmatrix}a_{1} & b_{1}\\ a_{2} & b_{2}\\ \vdots & \vdots\\ a_{m} & b_{m}\end{pmatrix}$

将其转置为sample作为列向量，特征作为行向量：

$\begin{pmatrix}a_{1} &a_{2} & \cdots &a_{m} \\ b_{1} & b_{2} & \cdots & b_{m}\end{pmatrix}$

用 $\frac{1}{m}XX^{T}$ 可以得到（不是推导得到的，而是恰好这个公式很好用）：

$\frac{1}{m}XX^{T} = \begin{pmatrix}\frac{1}{m} \sum_{i=1}^{m} a_{i}^{2} & \frac{1}{m} \sum_{i=1}^{m} a_{i} b_{i}\\ \frac{1}{m} \sum_{i=1}^{m} a_{i} b_{i} & \frac{1}{m} \sum_{i=1}^{m} b_{i}^{2} \end{pmatrix}$

同理m个n维数据，将其转置称n*m个矩阵X ，设 $\frac{1}{m}XX^T$ ,则C是一个对称矩阵，其对角线为各个字段的方差，其中第i行j列和第j行i列元素相同

矩阵对角化

实对称矩阵：一个n*n的实对称矩阵一定可以找到n个单位正交特征向量

$(e_{1} , e_{2} \cdots e_{n})$

实对称阵可进行对角化：

$E^{T}CE = \Lambda =\begin{pmatrix}\lambda _{1} & & & \\ & \lambda _{2}& & \\ & & \ddots & \\ & & & \lambda _{n}\end{pmatrix}$

根据特征值的从大到小，将特征向量从上到下排列，则用前K行组成的矩阵乘以原数据矩阵X，就得到了我们需要的降维后的数据矩阵Y

PCA简单实例

对角化.png

参考

https://blog.csdn.net/hustqb/article/details/78394058

[图片上传失败…(image-2df3d7-1545210203861)]

协方差矩阵 https://www.youtube.com/watch?v=locZabK4Als

腾讯视频 PCA

https://www.bilibili.com/video/av29441413/?p=2

http://blog.codinglabs.org/articles/pca-tutorial.html

https://blog.csdn.net/hustqb/article/details/78394058

特征值，特征向量

https://www.bilibili.com/video/av6540378?from=search&seid=11885232428903943428

线性代数之六：特征值与特征向量

https://blog.csdn.net/zzulp/article/details/78511711

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
PCA介绍以及简单实例

111
复制链接

扫一扫

专栏目录

博客等级

码龄6年

70
原创

23
点赞

103
收藏

4
粉丝

关注

私信

热门文章

分类专栏

python 19篇
Django 2篇
leetcode 12篇
刷题 24篇
sql 3篇
linux 4篇
java 7篇
生物信息 5篇
spring boot 1篇
hadoop 2篇
centos 2篇
机器学习算法 8篇
gensim 1篇

最新评论

pandas: 根据一列的条件来替换另一列的值
qq_42452928: 请问如果将Quality列的 30以下的值全部替换为低，30—60全部替换为中，60以上替换为高应该如何操作？烦请解答，谢谢。
PCA介绍以及简单实例
豆奶豆豆奶: 您好，倒数第二步的对角化只是验证协方差矩阵的吗
gensim训练wiki中文词向量
虚坏叔叔: 大佬流弊
gensim训练wiki中文词向量
mym_74 回复匆匆流年。: 48 Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz
gensim训练wiki中文词向量
匆匆流年。: [code=python] 2019-03-06 11:01:48,226 : INFO : EPOCH 2 - PROGRESS: at 9.72% examples, 615014 words/s, in_qsize 6, out_qsize 0 2019-03-06 11:01:49,228 : INFO : EPOCH 2 - PROGRESS: at 10.02% examples, 614295 words/s, in_qsize 5, out_qsize 0 2019-03-06 11:01:50,249 : INFO : EPOCH 2 - PROGRESS: at 10.35% examples, 614064 words/s, in_qsize 5, out_qsize 0 . .#省略 . 2019-03-06 11:17:32,648 : INFO : EPOCH - 5 : training on 158675895 raw words (153653982 effective words) took 245.7s, 625486 effective words/ ———————————————— [/code] 博主用的是什么CPU，我训练这个这个只能到60000 words/s左右，求解疑

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。