1 Unsupervised Learning作用
Clustering & Dimension Reduction(化繁为简):将复杂的输入转化输出为简单内容,如输入一组树的图片 输出一颗抽象的树图片。
Generation(无中生有):输入特定值,通过已知的function输出不同类型的树图片。
本课时重点在于线性问题中的Dimension Reduction。
2 Clustering
方法1:K-means
做法:
- 将 X = { x 1 , . . . , x n , . . . x N } X = \{ x^1,...,x^n,...x^N \} X={x1,...,xn,...xN}分成K簇
- 从 X X X中随机初始化中心点 c i c^i ci, i = 1 , 2 , . . . k i=1,2,...k i=1,2,...k
- (重复)遍历所有 x n x^n xn,若 x n x^n xn与哪个 c i c^i ci最近 则 b i n = 1 b^n_i=1 bin=1,反之 b i n = 0 b^n_i=0 bin=0
- (重复)更新中心点 c i c^i ci, c i = ∑ x n b i n x n ∑ x n b i n c^i=\frac{\sum_{x^n}b^n_ix^n}{\sum_{x^n}b^n_i} ci=∑xnbin∑xnbinxn
方法2:Hierarchical Agglomerative Clustering(HAC)层次聚类
做法:
- 现有ABCDE五颗树
- 两两计算相似度,选择最相似的一对A&B,将其平均起来得F。现在有FCDE四棵树
- 再两两计算相似度 取最相似一对做平均得G,以此类推得再得H,最后得到根节点ROOT
- 当切在橙色处,形成三类AB、C、DE;当切在绿色处,形成两类ABC、DE
3 Dimension Reduction(降维)
3.1 理解
- 看上去是三维的,但实际放到二维中研究即可。
- 在MNIST数据集中,一个数据是28*28维度的,实际上可以将其转换为关键因素进行研究(如角度)
注意:主成分研究并非简单的剔除特征,而是将高纬度特征映射成低维度,映射得到的低维度特征(能够较好代表原来的高纬度特征)为主成分。
3.2 方法
3.2.1 Feature Selection
直观看到特征聚集在某一维度,则直接提取该维度。(实际操作有困难)
3.2.2 Principle Component Analysis主成分分析
z = W x z=Wx z=Wx关键是找到 W W W
3.2.2.1 举例
例子:宝可梦 横轴:攻击力,纵轴:防御力,现将其降维至一个维度。要点如下:
- z 1 = w 1 ⋅ x z_1=w^1·x z1=w1⋅x 其中 ∣ ∣ w 1 ∣ ∣ 2 = ( w 1 ) T w 1 = 1 ||w^1||_2=(w^1)^Tw^1=1 ∣∣w1∣∣2=(w1)Tw1=1
- 可能得到的结果 如图橙色区域,但我们尽可能选择方法最大的(以防止降维后的数据堆叠到一起),即最大化:
3.2.2.2 引申
若将 x x x降维至两个维度,则:
- 找到 w 1 和 w 2 w^1和w^2 w1和w2,且 ∣ ∣ w 1 ∣ ∣ 2 = 1 ||w^1||_2=1 ∣∣w1∣∣2=1, ∣ ∣ w 2 ∣ ∣ 2 = 1 ||w^2||_2=1 ∣∣w2∣∣2=1, w 1 ⋅ w 2 = 0 w^1·w^2=0 w1⋅w2=0
- 最大化 z 1 和 z 2 z_1和z_2 z1和z2
- 则 W = [ ( w 1 ) T ( w 2 ) T . . ] W=\begin{bmatrix} (w^1)^T \\ (w^2)^T \\ .\\.\end{bmatrix}\quad W=⎣⎢⎢⎡(w1)T(w2)T..⎦⎥⎥⎤
3.2.2.3 如何解
- 方法1:可将PCA描述为神经网络,然后采用梯度下降方法求解
- 方法2:拉格朗日乘子法
预备:
投影到1维:
- 目标:找到 w 1 w^1 w1,使 V a r ( z 1 ) = ( w 1 ) S w 1 Var(z_1)=(w^1)Sw^1 Var(z1)=(w1)Sw1最大
- 约束: ( w 1 ) T w 1 = 1 (w^1)^Tw^1=1 (w1)Tw1=1
- 朗格朗日乘法,得:
- 结论: w 1 w^1 w1是协方差矩阵 S S S的特征向量(对应的特征值 λ 1 \lambda_1 λ1为最大的特征值)
投影到1维:
- 目标:找到 w 2 w^2 w2,使 V a r ( z 2 ) = ( w 2 ) S w 2 Var(z_2)=(w^2)Sw^2 Var(z2)=(w2)Sw2最大
- 约束: ( w 2 ) T w 2 = 1 (w^2)^Tw^2=1 (w2)Tw2=1 , ( w 2 ) T w 1 = 0 (w^2)^Tw^1=0 (w2)Tw1=0
- 朗格朗日乘法,得:(蓝色线处=1,黄色线处=0,绿色线处=行向量*矩阵*列向量=标量)
- 结论: w 2 w^2 w2是协方差矩阵 S S S的特征向量(对应的特征值 λ 2 \lambda_2 λ2为第二大的特征值。解释:因为两个特征向量是正交的,故特征值一定不同,所以 w 2 w^2 w2特征值一定不是最大的那个,那么顺延即为第二大)