1 无监督学习
我们有一些没有带任何标签的数据,即系列样本x并没有对应的y,我们需要将这些x输入到一个算法中,去寻找数据的内部结构;
如上图,训练数据点可以分为两个数据点集(簇),这类点集分类算法成为聚类算法;
2 K-Means算法
概念:最普遍的迭代式聚类算法,输入未标记的数据集合,通过算法将数据聚类成不同的组;
算法实现流程:
1. 选取k个随机点(聚类中心)
2. 对每一个样本数据,将其与距离最近的聚类中心关联,关联于同一个点的数据归为一组
3. 计算组平均值,将组中心点移动到平均值的位置
4. 重复2-3步骤直至均值稳定
伪代码: