本文基于Coursera 斯坦福吴恩达机器学习课程
谢绝任何不标记出处的转载
如有问题请联系作者
所有非手画图像(除公式)均来自课程
侵删
————————————————————————————————————————————————
1. 无监督学习简介 unsupervised learning
无监督学习相比监督学习,最大的差别就是没有用来衡量学习效果的手段(有无监督)。
例如在监督学习中,对于回归模型我们可以用观测值和估计值之差的平方和来衡量模型;对于分类问题我们可以用错误分类率来衡量。但在监督学习中,结果是未知的。举个例子,将5000份论文按照关键词进行学科分类,我们并不需要控制算法正确分类,而是让它自然而然通过学习进行归类,这就是一个无监督学习的例子。
2. 聚类
聚类是无监督学习的一种算法,它通过将拥有相似feature的量聚合进行归类。常见的聚类应用场景有:市场份额分割、社交网络分析、组织计算机集群帮助数据中心完成调度工作、天文数据分析等。
3. K-means 聚类
3.1 模型简介
K-means比较好用图像来说明。大致可以分为两类:数据点是明显可区分的(separated)和数据点是非分离的(non-separated)。