hit2015spring晨凫追风
欢迎关注我的博客:http://blog.csdn.NET/hit2015spring
前期预备知识
在无监督的算法中,训练样本的标记信息是未知的,目标是通过对训练样本学习来揭示数据的内在性质和规律。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇,就是一堆不知道标签的数据样本,这些样本中每一个都包含着一个 n 维特征向量
就是描述一个事物它具有n个特征,这些特征可以反映出一个物体它属于哪个类别。于是聚类算法将这些样本D划分为 k 个不相交的簇。例如有一群人,有穿红衣服的长头发,有绿衣服的长头发,白衣服短头发,黑衣服长头发。。。。。。简单划分为男生女生,这里要满足的一个度量指标就是wom衣服颜色和头发长短就是特征的两维。只是一群人,我们通过这些特征之间的联系来把他们分成为两类人。
(当然这个男生女生的标签是我们自己加的,在k-means聚类的过程中算法是不知道这个标签的,它只是根据这些特征的联系(就是距离)把认为是同一类的样本聚集在一起)。
这里面引入了距离的定义:
对于两个样本:
distmk