K-means 算法

hit2015spring

欢迎关注我的博客:http://blog.csdn.NET/hit2015spring

前期预备知识

在无监督的算法中,训练样本的标记信息是未知的,目标是通过对训练样本学习来揭示数据的内在性质和规律。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇,就是一堆不知道标签的数据样本,这些样本中每一个都包含着一个 n 维特征向量 xi=(xi1,xi2,,xin)

就是描述一个事物它具有n个特征,这些特征可以反映出一个物体它属于哪个类别。于是聚类算法将这些样本D划分为 k 个不相交的簇。例如有一群人,有穿红衣服的长头发,有绿衣服的长头发,白衣服短头发,黑衣服长头发。。。。。。简单划分为男生女生,这里要满足的一个度量指标就是wom衣服颜色和头发长短就是特征的两维。只是一群人,我们通过这些特征之间的联系来把他们分成为两类人。

(当然这个男生女生的标签是我们自己加的,在k-means聚类的过程中算法是不知道这个标签的,它只是根据这些特征的联系(就是距离)把认为是同一类的样本聚集在一起)。

这里面引入了距离的定义:
对于两个样本: xi=(xi1,xi2,,xin) xj=(xj1,xj2,,xjn) , 两个样本之间求距离是:

distmk
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值