本节课主要讲了两种线性降维的方法——cluster和PCA,并从两个角度解释了PCA。最后讲了一些关于矩阵分解的知识。
1.cluster
cluster就简单的带过了,主要是k-means和HAC
k-means原理:
(1)先初始化k个中心点ci (i=1,….,k)
(2)如果样本x离ci更近,就划分到第i类
(3)更新每个类别的中心点
(4)重复(2)(3)
如何选择K是个问题~
HAC(Hierarchical Agglomerative Clustering )原理
类似于建立一棵树,每个节点都设置一个阈值
2.PCA(Principle Component Analysis)
PCA降维原理可以从两个来考虑
一是基于最大方差原理,样本点在这个超平面上的投影尽可能分开。
二是基于最小化误差原理,样本点到这个超平面距离都足够近。
2.1基于最大方差原理
(1)需要找到一个投影矩阵W,使得x在W上的投影方差尽可能的大,其中W是由很多个向量组成(w1,w2,w3,…),希望x在w1上投影的方差最大,w2上投影的方差其次……以此类推