13.1 Unsupervised Learning_ Introduction
有监督学习和无监督学习的区别,训练集给定标签和未给定标签。
13.2 K-Means Algorithm
输入为要分的K类和训练集;
在算法中,随机取K个点作为聚类中心,第一步数据点离哪个聚类中心近就分为哪类,第二步将聚类中心移动至第一步中分类的平均值点。重复以上步骤,直到聚类中心不再移动。
以下给出2聚类的例子:
13.3 Optimization Objective
第1步优化目标:最小化点到对应聚类中心的距离之和,得到点的分类;
第2步优化目标:最小化得到的点分类到聚类中心的距离得到新的聚类中心;
重复以上步骤。
13.4 Random Initialization
我们来讨论K-means方法中的随机初始化方法。
对于一次初始化可能得到局部最优结果,我们进行多次随机初始化再比较得到lowest cost,但这只适用于数据量较小的情况。
13.5 Choosing the Number of Cluster
如何选择聚类数量K呢?或者说选择哪种K才是正确的?
当是左图这种情况时我们利用Elbow method选择K,但大多数情况是右图这种不明确的,此时我们基于经验人工选取K。