聚类算法,不是分类算法。
分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类。
聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类。
这里的k-means聚类,是事先给出原始数据所含的类数,然后将含有相似特征的数据聚为一个类中。
所有资料中还是Andrew Ng介绍的明白。
首先给出原始数据{x1,x2,...,xn},这些数据没有被标记的。
初始化k个随机数据u1,u2,...,uk。这些xn和uk都是向量。
根据下面两个公式迭代就能求出最终所有的u,这些u就是最终所有类的中心位置。
公式一:
意思就是求出所有数据和初始化的随机数据的距离,然后找出距离每个初始数据最近的数据。
公式二:
意思就是求出所有和这个初始数据最近原始数据的距离的均值。
然后不断迭代两个公式,直到所有的u都不怎么变化了,就算完成了。
kmeans实例一:
%随机获取150个点
X = [randn(50,2)+ones(50,2);randn(50,2)-ones(50,2);randn(50,2)+[ones(50,1),-ones(50,1)]];
opts = statset('Display','final');