K-means模型

最新推荐文章于 2024-05-23 22:49:23 发布

水尺

最新推荐文章于 2024-05-23 22:49:23 发布

阅读量2w

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/shui_chi_/article/details/102648824

版权

K-means模型

摘要由CSDN通过智能技术生成

K-means模型

1. 聚类和分类

分类K-means是一个聚类算法。先来一段说明，什么是聚类呢？他和分类有什么区别呢？
比如说你现在有一堆水果，就：苹果，香蕉，西瓜三类吧。
现在假如你不知道苹果，香蕉，西瓜这些个名词，你只是看到了一堆的物品，然后你根据他们的颜色，形状，大小等属性的不同，将他们相似的那一些放到一起，不相同的分开放，聚成了三类，这样你就完成了你的工作。
若是假如你一开始就知道有一种水果香蕉，基于经验你又知道：黄色的，条状的，弯弯的；
有另一种水果是苹果，基于经验你又知道：红红的，球状的，较小
还有最后一种是西瓜，基于经验你又知道：绿色条纹，球状，较大
然后你讲这一堆水果按照类别分开，并把每一个水果的种类刻在该水果上，以作提示。这一过程就是分类。

2. 如何聚类？

计算机完成聚类的过程就是从一堆数据（常为向量）中找相似度较大的那些放到一堆，相似度较小的则分开成另一堆。最后完成所有数据的分堆，然而呢，我们并不关心具体的那一堆到底是个啥？苹果，香蕉还是西瓜对我们而言，我们不care。
这里，说的已经点题了，不错，我们就是基于相似度将那些物品分堆的，那么这个相似度机器怎么识别呢？我们知道，我们输入到计算机中的都是一些数字，每一条向量代表着一个东西，如果是相同的一个东西，他的数据化表示也就是向量也应该相同，而越相似的东西他们的向量彼此之间就越接近（也就是距离接近），那么我们就可以根据向量之间的距离为他们彼此之间的相似度打个分。
距离，这里我们采用的是欧氏距离，算两个向量的向量差内积。
那么这么做对不对呢？我们举个例子：
还是上面的水果那个例子，我们从大小上来看，苹果的直径大小和西瓜的直径大小是很显著的，基本上都是围绕着一个中值服从正态分布。而这两个中心之间离得距离很远，而走位点与他们确实十分接近。
从而我们就想到了，对于我们的数据向量们，我们找到他们每一类的数据中心是不是就可以完成聚类了？不错，K-means就是做了这么一件事，在给定所聚类数K的情况下，我们给出了一个计算相似度的方法。