K-means 算法

晨凫追风

于 2017-07-19 13:36:36 发布

阅读量5.2k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hit2015spring/article/details/75369253

版权

$\frac{hit2015spring}{晨凫追风}$

欢迎关注我的博客：http://blog.csdn.NET/hit2015spring

前期预备知识

在无监督的算法中，训练样本的标记信息是未知的，目标是通过对训练样本学习来揭示数据的内在性质和规律。聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇，就是一堆不知道标签的数据样本，这些样本中每一个都包含着一个 $n$ 维特征向量 $x_i=(x_{i1},x_{i2},\cdots,x_{in})$ ，

就是描述一个事物它具有n个特征，这些特征可以反映出一个物体它属于哪个类别。于是聚类算法将这些样本D划分为 $k$ 个不相交的簇。例如有一群人，有穿红衣服的长头发，有绿衣服的长头发，白衣服短头发，黑衣服长头发。。。。。。简单划分为男生女生，这里要满足的一个度量指标就是wom衣服颜色和头发长短就是特征的两维。只是一群人，我们通过这些特征之间的联系来把他们分成为两类人。

（当然这个男生女生的标签是我们自己加的，在k-means聚类的过程中算法是不知道这个标签的，它只是根据这些特征的联系（就是距离）把认为是同一类的样本聚集在一起）。

这里面引入了距离的定义：
对于两个样本： $x_i=(x_{i1},x_{i2},\cdots,x_{in})$ ， $x_j=(x_{j1},x_{j2},\cdots,x_{jn})$ ，两个样本之间求距离是：

d i s t m k

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。