李宏毅机器学习——非监督学习（线性模型）

最新推荐文章于 2023-12-20 15:39:36 发布

ML_CS

最新推荐文章于 2023-12-20 15:39:36 发布

阅读量313

点赞数

分类专栏：机器学习文章标签：非监督学习线性模型

本文链接：https://blog.csdn.net/qq_27436347/article/details/89456035

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

聚类

需要多少类？empirical

K-means

步骤：

初始化k个聚类中心
每个样本算和各个聚类中心的距离，归类到最近的中心点所在的类，更新聚类中心，重复这一步骤

Hierarchical Agglomerative Clustering

步骤

建树结构
选择threshold

聚类：一个对象必须属于某一类，以偏概全，引出了distributed representation

降维

寻找一个function，使得输出的维度低于输入的维度

特征选择

直接拿掉某些特征

PCA

$z = W x$ 选择使得投影后区分度大的方向，即要最大化输出的方差，找到的W是正交矩。

求解方法：拉格朗日法

比如寻找第一个投影向量 $w^1$ ，使得 ${z_1} = {w^1} \cdot x$ ： $\begin{aligned} \operatorname{var}\left(z_{1}\right) &=\sum_{z_{1}}\left(z_{1}-\overline{z}_{1}\right)^{2} \\ &=\sum_{x}\left(w^{1} \cdot x-w^{1} \cdot \overline{x}\right)^{2} \\ &=\sum_{x}\left(w^{1} \cdot(x-\overline{x})\right)^{2} \\ &=\left(w^{1}\right)^{T} \sum_{x}(x-\overline{x})(x-\overline{x})^{T} w^{1} \\ &=\left(w^{1}\right)^{T} S w^{1} \end{aligned}$ 目标函数为 $\left(w^{1}\right)^{T} S w^{1}$ 约束为 $\left(w^{1}\right)^{T} w^{1}=1$ 构造拉格朗日函数 $g\left(w^{1}\right)=\left(w^{1}\right)^{T} S w^{1}-\alpha\left(\left(w^{1}\right)^{T} w^{1}-1\right)$ 令导数为0，得到解为 $w^{1}-\alpha w^{1}=0$ 等价于 $\left(w^{1}\right)^{T} S w^{1}=\alpha\left(w^{1}\right)^{T} w^{1}$ 即寻找最大的特征值对应的特征向量
如果要找第二个投影向量 $w^2$ ，目标函数不变，约束为 $\left(w^{2}\right)^{T} w^{2}=1 \quad\left(w^{2}\right)^{T} w^{1}=0$

结论

PCA能够去相关性，即降维后的数据的协方差矩阵对对角阵

PCA的另一角度

最小化重构误差 $L=\min _{\left\{u^{1}, \ldots, u^{K}\right\}} \sum\left\|(x-\overline{x})-\left(\sum_{k=1}^{K} c_{k} u^{k}\right)\right\|_{2}$

SVD

每一个matrix X可以分解称 $\approx U\sum V$ ，U对应的列是一组正交的特征向量，对应的特征值是 $XX^T$ （就是协方差矩阵）的特征值
所以U的解( $u_1,...$ )就是PCA得出的解( $w^1,...$ )，PCA降维得到的结果就是 $\sum V$ 里的vector