fit函数算法表示_kmeans聚类算法原理总结

k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理 。

目录

1. k-means聚类算法原理

2. k-means聚类算法步骤

3. k-means++聚类优化算法

4. 小批量处理的k-means聚类算法

5. k值的选取

6. k-means聚类算法不适用的几个场景

7. k-means与knn区别

8. 小结

1. k-means聚类算法原理

聚类算法性能度量的文章提到若簇类相似度好簇间的相似度差,则聚类算法的性能较好。我们基于此定义k-means聚类算法的目标函数:

bbc8fe4d5acfa0e7396873d566647b4e.png 

其中1252c84a42cfa91a5ea70f01468cdf24.png表示当样本827b1e94f8672bc081692334702ac69e.png划分为簇类k时为1,否则为0。

0d758f31c5701228c6668e275eb7fea1.png

a3930875ea90b76a4f1f23c6b3d103a6.png表示簇类k的均值向量。

目标函数(1.1)在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度,J值越小则簇内样本相似度越高。最小化目标函数是一个NP难题,k-means聚类运用EM算法思想实现模型的最优化。

1)初始化K个簇的均值向量,即f626b031a463b6844891165259c0cacf.png是常数,求J最小化时的1252c84a42cfa91a5ea70f01468cdf24.png。我们不难知道当数据点划分到离该数据点最近的簇类时,目标函数J取最小。

2)已知1252c84a42cfa91a5ea70f01468cdf24.png,求最小化J时相应的a3930875ea90b76a4f1f23c6b3d103a6.png。令目标函数J对a3930875ea90b76a4f1f23c6b3d103a6.png的偏导数等于0:

4cf9a51e237503d13e574007655ba7ec.png

得:

900d9ba2630f68b5e0d6b8ff626bf631.png

a3930875ea90b76a4f1f23c6b3d103a6.png表达式的含义是簇类中心等于所属簇类样本的均值。

本节用EM算法思想解释了k-means聚类算法的参数更新过程,相信大家对k-means聚类算法有一个更清晰的认识。

2. k-means聚类算法步骤

k-means聚类算法步骤实质是EM算法的模型优化过程,具体步骤如下:

1)随机选择k个样本作为初始簇类的均值向量;

2)将每个样本数据集划分离它距离最近的簇;

3)根据每个样本所属的簇,更新簇类的均值向量;

4)重复(2)(3)步,当达到设置的迭代次数或簇类的均值

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值