机器学习学习笔记（十二）—— 无监督学习/维数约减(dimensionality reduction)

最新推荐文章于 2022-02-05 06:30:00 发布

lancetop-stardrms

最新推荐文章于 2022-02-05 06:30:00 发布

阅读量926

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_41645983/article/details/90223620

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

为什么使用维数约减：

应用于数据压缩，数据压缩不仅通过压缩数据使得数据占有更少的计算机内存和硬盘空间，还能给算法提速。

什么是维数约减：

给出数据集：{ $x^{(1)},x^{(2)}...,x^{(m)}$ }, $x^{(i)}\in \mathbb{R}^{n}$ . 使得数据集转换成：{ $z^{(1)}, z^{(2)}...,z^{(m)}$ }, $z^{(i)}\in \mathbb{R}^{k}$ , k <= n. 尽量使得k=2/3，这样便于将数据可视化。

主成分分析法(Principal Component Analysis, PCA):

就2D到1D来举例，就是从平面上寻找一个向量u，每个数据点到u的距离为投影误差，那么就是找一个投影误差最小的向量u。

那么3D到2D就像这样，寻找两个向量u(1),u(2), 那么所有的投影点，都会在这两个向量的生成子空间上。

所以PCA的目的就是：Reduce from n-dimension to k-dimension, find k vectors $u^{(1)},u^{(2)}...u^{(k)}$ onto which to project(投射) the data. so as to minimize the projection error(投影误差).

PCA实现过程：

Reduce data from n-dimensions to k-dimensions:

1.特征归一化.

2.compute 'covariance matrix(协方差矩阵)'

$\Sigma=\frac{1}{m}\sum_{i=1}^{n}(x^{(i)})(x^{(i)})^{T}\in \mathbb{R}^{n\times n}$

3.compute 'eigenvectors' of matrix $\Sigma$ .

[U, S, V] = svd( $\Sigma$ ), svd指奇异值分解.

注：在octave中，eig()求特征向量，svd()奇异值分解. 两个方法用在协方差矩阵上会得到同样的结果，因为协方差均值总满足一个数学性质称为对称正定 (symmetric positive definite)，但是svd更稳定些。

4.选取U的前k列，组成 Ureduce = U(:, 1:k) $\in \mathbb{R}^{n \times k}$ , z = Ureduce' * x $\in \mathbb{R}^{k\times 1}$

原始数据的重构(reconstruction),将z还原到x：

$x\approx x_{approx}=U_{reduce}*z$

如果投影误差很小的话，那么x是约等于xapprox的。（如下图，左是原数据，右是还原的数据点）

如何选择最优的k：

定义平均平方映射误差 (Average Squared Projection Error):

$\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)}-x_{approx}^{(i)} \right \|^{2}$

数据的总变化(Total variation in the data):

$\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)} \right \|^{2}$

Typically, choose k to be smallest value so that:

$\frac{\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)}-x_{approx}^{(i)} \right \|^{2}}{\frac{1}{m}\sum_{i=1}^{m}\left \| x^{(i)} \right \|^{2}}\leqslant 0.01$ (99% of variance is retained)