1、关于聚类与分类
聚类,是将相似的样本聚集成一簇,属于无监督学习,输入的样本没有给定类别标签y,只有样本x;聚类的目的就是找到每个样本x潜在的类别y,并且将x归于类别y的过程;同一类别“距离”较近,而不同类别之间“距离”较远。常见的聚类算法有:K-Means, K-Medoids, GMM, Spectral clustering,Ncut(本节暂时只解释k-means,后面几种随后几章会解释)。
分类,输入是样本和对应标签,(x,y),经过训练,实现能够判断任意输入样本的类别,属于有监督学习。常见的分类算法有:SVM,naïve Bayes、logistics regression等。
2、k-means概述
k-means算法是聚类算法的一种,算法过程如下:
(2)对每个,计算其与的距离,将距离某个距离近的样本暂时聚为一类,计算其应该属于的类;公式为:
(3)重新计算每个