非监督度学习-1 Unsupervised Learning-1(K-means,HAC,PCA)
非监督学习方法主要分为两大类
- Dimension Reduction (化繁为简)
- Generation (无中生有)
目前我们仅专注化繁为简,降维的方法,无中生有(GAN为代表的)方法,以后关注。
1. Clustering
• K-means 算法
经典的非监督根据距离分类算法:
- Hierarchical Agglomerative Clustering (HAC)
根据数据两两间的相似度,进行建立一棵树,进行分类
2. 分布的重表示 Distributed Representation
我们主要介绍Principle Component Analysis(PCA):
需要找到W,
?
=
?
?
? = ??
z=Wx 降低维度到 1-D:
(1)线性代数表示
使得投影的结果的方差最大化
多维度投影中w1和w2是正交的
数学化证明,PCA与协方差有关 最大化
(
w
1
)
T
c
o
v
(
x
)
w
1
(w^{1})^{T} cov(x)w^{1}
(w1)Tcov(x)w1
因为S是对称矩阵,是半正定,特征值非负。使用拉格朗日乘子法:
w
1
w^{1}
w1是特征向量,
λ
1
\lambda_{1}
λ1是最大的特征值
同理:
w
2
w^{2}
w2是特征向量,
λ
2
\lambda_{2}
λ2是第二大的特征值
PCA去相关性举例:
(2)另一种视角看PCA
举例:手写数字是由基本的图片元素组成
那么7是由以下图片元素组成
我们有:
PCA可以看看做是特殊的神经网络,元素间是正交的