【学习笔记】吴恩达机器学习 | 第十二章 | 降维

最新推荐文章于 2024-10-02 21:20:07 发布

Chency.

最新推荐文章于 2024-10-02 21:20:07 发布

阅读量253

点赞数 1

分类专栏：【学习笔记】吴恩达机器学习学习笔记文章标签：学习机器学习人工智能神经网络

本文链接：https://blog.csdn.net/jermy00/article/details/131819700

版权

学习笔记同时被 2 个专栏收录

27 篇文章 33 订阅

订阅专栏

【学习笔记】吴恩达机器学习

17 篇文章 29 订阅

订阅专栏

文章详细介绍了主成分分析(PCA)的概念，包括降维、数据压缩和数据可视化的动机，PCA的方法和算法流程，以及如何选择主成分的数量。PCA用于减少数据的冗余特征，加速学习算法并帮助数据可视化。吴恩达强调PCA在适当的应用场景下非常有用，但不应作为防止过拟合的手段。

摘要由CSDN通过智能技术生成

在这里插入图片描述

简要声明

课程学习相关网址
由于课程学习内容为英文，文本会采用英文进行内容记录，采用中文进行简要解释。
本学习笔记单纯是为了能对学到的内容有更深入的理解，如果有错误的地方，恳请包容和指正。
非常感谢Andrew Ng吴恩达教授的无私奉献！！！

专有名词

Dimensionality Reduction	降维	highly redundant feature	高冗余特征
Data Visualization	数据可视化	Principal Component Analysis (PCA)	主成分分析方法
projection error	投影误差	Data preprocessing	数据预处理
covariance matrix	协方差矩阵	Reconstruction	重构

Motivation

Data Compression

在这里插入图片描述

数据压缩不仅能使得数据占用较少的内存或硬盘空间还能对学习算法进行加速
highly redundant feature 高冗余特征 →将数据从二维降低到一维 →用一条线上的投影表示两种特征的数据
2D to 1D →通过投影到一条线上，所有的原始样本来近似原始的数据集 →只需要一个实数就能表示每一个训练样本的位置
3D to 2D →把所有的数据投影到一个二维平面 →只需要两个数就能指定这个平面中点的位置

在这里插入图片描述

Data Visualization

在这里插入图片描述

用两个主特征表示50个特征 →GDP & per person GDP

Principal Component Analysis

Principal Component Analysis (PCA) problem formulation

在这里插入图片描述

Principal Component Analysis 主成分分析法 →找到一个低维平面，然后将数据投影到上面，使得投影误差最小化
在应用PCA之前先进行 mean normalization 均值归一化和 feature scaling 特征规范化
如果想将数据从二维降到一维 →试着找到一个向量 u⁽¹⁾，投影后能够最小化投影误差的方向
如果想将数据从n维降到k维 →寻找k个方向向量来对数据进行投影来最小化投影误差
！！！PCA不是线性规划
1. 线性规划是拟合一条直线来最小化点和直线之间的平方误差（垂直距离），PCA是试图最小化投影误差
2. 线性规划是根据x对y的预测，而PCA没有特殊的变量y，都是特征x

在这里插入图片描述

Principal Component Analysis algorithm

Data preprocessing 数据预处理
1. Training set: x⁽¹⁾, x⁽²⁾, … x^(m),
2. Preprocessing (feature scaling 特征缩放 / mean normalization 均值标准化)
  1. 计算每个特征的均值
  2. 通过减去均值取代每个特征x（x_j - μ_j）
  3. 如果不同的特征有非常不同的缩放 →缩放每一个特征在一个相对的数值范围内
  $\mu_j=\frac{1}{m}\sum_{i=1}^mx_j^{(i)} \\ x_j^{(i)}:=\frac{x_j^{(i)}-\mu_j}{s_j}$
Reduce data from -n‐dimensions to k‐dimensions 将数据从n维降到k维

$\Sigma = \frac{1}{m}\sum_{i=1}^n(x^{(i)})(x^{(i)})^T$
1. 计算 covariance matrix 协方差矩阵（Sigma）
2. 计算协方差矩阵的 eigenvectors 特征向量
```
% svd 表示 sigular value decomposition 奇异值分解
% eig(Sigma)
% U 表示一个降维矩阵
Sigma = (1/m)*X'*X;
[U,S,V] = svd(Sigma);
Ureduce = U(:,1:k); % 提取降到k的U矩阵
z = Ureduce’*x;
```

在这里插入图片描述

Reconstruction from compressed representation

在这里插入图片描述

$z=U_{reduce}^T\cdot x$

$\in \mathbb{R}^{n} \rightarrow z \in \mathbb{R}^k$

$\approx x_{approx}=U_{reduce}\cdot z$

Choosing the number of principal components

Choosing k

Average squared projection error 均方投影误差
Total variation in the data 数据总方差
选择 k 从而最小化数值的同时确保99%的数据总方差保留 →降维以后数据信息保留方差

$\frac{\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x_{approx}^{(i)}||^2 }{ \frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2} \le 0.01$

Algorithm

Try PCA with k=1,2,… ,n
计算U_reduce, z⁽¹⁾, z⁽²⁾, … z^(m), x_approx⁽¹⁾, x_approx⁽²⁾, … x_approx^(m),
检查是否符合范围
在确保满足范围的条件下选择最小的k

$\frac{\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x_{approx}^{(i)}||^2 }{ \frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2} \le 0.01$

[U,S,V] = svd(Sigma);

$1-\frac{\sum_{i=1}^kS_{ii}}{\sum_{i=1}^nS_{ii}}=\frac{\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x_{approx}^{(i)}||^2 }{ \frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2} \le 0.01$

$\frac{\sum_{i=1}^kS_{ii}}{\sum_{i=1}^nS_{ii}} \ge 0.99$

在这里插入图片描述

Advice for applying PCA

Supervised learning speedup

在这里插入图片描述

PCA算法可以减少数据的维度从而使得算法运行更加高效
抽取输入训练集特征x构成一个无标签的训练集 →使用PCA得到原始数据的低维表达 →得到一个新的训练集
PCA定义一个从x到z的映射，从x到z的映射只能通过在训练集上运行的PCA来定义，这个映射可以应用于交叉验证集和测试集样本中 →当在运行PCA时仅仅在训练集中的数据上运行，不能用在交叉验证集和测试集数据

Application of PCA

Compression 压缩
1. Reduce memory/disk needed to store data →减少存储数据所需的存储器或硬盘空间
2. Speed up learning algorithm →加速学习算法
3. choose k by % of variance retained →为了选择k计算出确定方差保留的百分比
Visualization 可视化
1. plot only two/three dimensional data →可视化二维或三维数据

Bad use of PCA: To prevent overfitting

在这里插入图片描述

！！！错误用法：使用PCA去防止过拟合
错误认为PCA减少特征数量所以过拟合的可能性更小
应该使用正则化而不是PCA来防止过拟合

在这里插入图片描述

在设计机器学习系统时直接包括PCA，而不考虑如果不使用PCA会怎样
在实现PCA之前，首先考虑使用最原始的数据x⁽ⁱ⁾，只有这样做不能达到目的的情况下才考虑使用PCA和z⁽ⁱ⁾

吴恩达教授语录

“For many problems we actually reduce the dimensional data and still retain most of variance and with barely effecting the performance.”
“PCA is an incredibly useful algorithm, when you use it for the appropriate applications and I’ve actually used PCA pretty often. And for me, I use it mostly to speed up the running time of my learning algorithms.”
“PCA is one of the most commonly used and one of the most powerful unsupervised learning algorithms.”