1:思想
K-means,属于无监督学习。即输入数据没有标签y,经过一些算法后,找到标签y。
聚类的目的就是找到每个样本潜在的标签y,并将同类别的样本放到一起。
而k-means聚类:就是把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,
使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。
2:缺点
1)聚类数量k,需要输入。选择不恰当,聚类结果很糟糕。
2)收敛到局部最优解,和直观想象不一样,这种可以多此选择初始点,进行多次实验,取平均来克服。
3:算法
4:练习程序
clear all;
clc ;
%第一类数据
mu1=[0,0,0]; %%多维高斯向量均值
s1=[0.3 0 0;0 0.35 0;0 0 0.3];%%协方差分布
data1=mvnrnd(mu1,s1,100); %%产生高斯分布数据
%第二类数据
mu2=[1.25,1.25,1.25]; %%多维高斯向量均值
s2=[0.3 0 0;0 0.35 0;0 0 0.3];%%协方差分布
data2=mvnrnd(mu2,s2,100);