K-means模型

K-means模型
摘要由CSDN通过智能技术生成

K-means模型

1. 聚类和分类

分类K-means是一个聚类算法。先来一段说明,什么是聚类呢?他和分类有什么区别呢?
比如说你现在有一堆水果,就:苹果,香蕉,西瓜三类吧。
现在假如你不知道苹果,香蕉,西瓜这些个名词,你只是看到了一堆的物品,然后你根据他们的颜色,形状,大小等属性的不同,将他们相似的那一些放到一起,不相同的分开放,聚成了三类,这样你就完成了你的工作。
若是假如你一开始就知道有一种水果香蕉,基于经验你又知道:黄色的,条状的,弯弯的;
有另一种水果是苹果,基于经验你又知道:红红的,球状的,较小
还有最后一种是西瓜,基于经验你又知道:绿色条纹,球状,较大
然后你讲这一堆水果按照类别分开,并把每一个水果的种类刻在该水果上,以作提示。这一过程就是分类。

2. 如何聚类?

计算机完成聚类的过程就是从一堆数据(常为向量)中找相似度较大的那些放到一堆,相似度较小的则分开成另一堆。最后完成所有数据的分堆,然而呢,我们并不关心具体的那一堆到底是个啥?苹果,香蕉还是西瓜对我们而言,我们不care。
这里,说的已经点题了,不错,我们就是基于相似度将那些物品分堆的,那么这个相似度机器怎么识别呢?我们知道,我们输入到计算机中的都是一些数字,每一条向量代表着一个东西,如果是相同的一个东西,他的数据化表示也就是向量也应该相同,而越相似的东西他们的向量彼此之间就越接近(也就是距离接近),那么我们就可以根据向量之间的距离为他们彼此之间的相似度打个分。
距离,这里我们采用的是欧氏距离,算两个向量的向量差内积。
那么这么做对不对呢?我们举个例子:
还是上面的水果那个例子,我们从大小上来看,苹果的直径大小和西瓜的直径大小是很显著的,基本上都是围绕着一个中值服从正态分布。而这两个中心之间离得距离很远,而走位点与他们确实十分接近。
从而我们就想到了,对于我们的数据向量们,我们找到他们每一类的数据中心是不是就可以完成聚类了?不错,K-means就是做了这么一件事,在给定所聚类数K的情况下,我们给出了一个计算相似度的方法。

3. K-mens聚类:

这一部分我来将一些数学相关以及他具体的聚类步骤。
上面说的其实就很清楚了,K-means也是基础,他使用的数学公式其实也很简单: A = ( a 1 , a 2 , . . . , a n ) , B = ( b 1 , b 2 , . . . , b n ) A = (a_1, a_2, ... ,a_n), B = (b_1,b_2,...,b_n) A=(a1,a2,...,an),B=(b1,b2,...,bn)

那么我们就定义A与B之间的距离是这样:
d i s ( A , B ) = ∑ i = 1 n ( b i − a i ) 2 , 也 就 是 ( A − B ) T ∗ ( A − B ) dis(A, B) = \sqrt{\sum_{i=1}^n(b_i - a_i)^2}, 也就是(A-B)^T*(A-B) dis(A,B)=

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值