【机器学习】PCA原理分析

SoWhat1412

于 2018-09-08 11:29:32 发布

阅读量1.8w

点赞数 9

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31821675/article/details/82469324

版权

机器学习专栏收录该内容

18 篇文章 34 订阅 ¥19.90 ¥99.00

订阅专栏

PCA（主成分分析）是一种数据分析方法，通过线性变换将数据降维，保留主要特征。本文详细介绍了PCA的数学原理，包括数据的向量表示、向量的内积与投影、基变换、协方差矩阵及其优化目标，以及PCA算法的步骤。PCA寻找单位正交基，使得数据在新基上的方差最大且各字段间协方差为0。通过计算协方差矩阵的特征向量和特征值，可以选择主要特征，实现数据降维。

摘要由CSDN通过智能技术生成

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。

当然我并不打算把文章写成纯数学文章，而是希望用直观和易懂的方式叙述PCA的数学原理，所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原理。

数据的向量表示及降维问题

一般情况下，在数据挖掘和机器学习中，数据被表示为向量。例如某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合，其中每一天的数据是一条记录，格式如下：

(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)

其中“日期”是一个记录标志而非度量值，而数据挖掘关心的大多是度量值，因此如果我们忽略日期这个字段后，我们得到一组记录，每条记录可以被表示为一个五维向量，其中一条看起来大约是这个样子：

了解本专栏

关注

9
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SoWhat1412

CSDN认证博客专家 CSDN认证企业博客

码龄9年

424: 原创

6577: 周排名

151万+: 总排名

263万+: 访问

: 等级

2万+: 积分

2万+: 粉丝

4782: 获赞

2663: 评论

7201: 收藏

私信

关注

热门文章

分类专栏

最新评论

Neo4j下执行 cypher-shell 时，Connection refused 问题解决？
m0_64658117: 那个文件呀
python struct 结构体
boom_sha_kalaka: 穷疯了把
为什么一个 byte 的存储范围是 -128 ~ 127
做而论道_CS: 一个字节是 8 位 2 进制数。可构成 2^8 = 256 种组合，应该代表 256 个十进制数。都用来表示正数，其范围就是：0 ～ 255。
为什么一个 byte 的存储范围是 -128 ~ 127
做而论道_CS: 一个字节是 8 位 2 进制数。可构成 2^8 = 256 种组合，应该代表 256 个十进制数。用其中的一半（256 个）代表负数：　　－1 ～－128；用另外的一半（256 个）代表非负数：　　　0 ～＋127。这就是补码的表示范围：－128 ～ +127。－－－－－－－－－－－－－－－－－－原码和反码，给一个零，都编造了两个码：+0、-0。那么，原码和反码，就少表示一个数字：－128。所以，它们的表示范围是：－127 ～ +127。
cs-book
AferLiu: 218汇总无了，可以私我一下嘛，感谢！

最新文章

目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SoWhat1412 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。