机器学习之k均值聚类

最新推荐文章于 2024-04-02 16:17:10 发布

code_of_yang

最新推荐文章于 2024-04-02 16:17:10 发布

阅读量936

点赞数 6

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45892431/article/details/120404208

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
一、什么是k-means聚类算法？
- 1、软聚类
- 2、硬聚类
二、算法原理介绍
三、举例计算
参考文献

前言

今天一起学习下机器学习的今典分类算法之k-means

一、什么是k-means聚类算法？

k均值聚类是基于样本集合划分的聚类算法。简而言之，k 均值聚类将样本划分为 k 个类，将 n 个样本划分到 k 个类中，每个样本到其所属类中心的距离最小。k-means聚类属于硬聚类。

1、软聚类

软聚类就是把数据以一定的概率分到各类中，比如高斯混合模型(GMM)，比如模糊 C 均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是 0.7，在 B 类的概率是 0.3。软聚类又称为模糊聚类(fuzzy clustering）。

2、硬聚类

硬聚类就是把数据确切地分到某一类中，比如K-Means。

二、算法原理介绍

1、损失函数

定义样本与其所属类中心的距离总和为损失函数
$\begin{aligned} W(C) = \displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned}$
式中， $\overline{x_l} = (\overline{x}_{1l}, \overline{x}_{2l}, ...,\overline{x}_{ml})$ 是第 l 个类的中心（均值），m代表特征数。

k均值聚类是通过使损失函数最小化来选择最优的划分或者函数 $C\ast$ 。
$\begin{aligned} C\ast = arg \underset{C}{min}\displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned}$

2、算法流程

输入：n 个样本的集合
输出：样本集合的聚类 $C\bullet$

初始化。令 t = 0，随机选择 k 个样本点作为初始聚类中心 $m^{(0)} = (m^{(0)}_1,m^{(0)}_l,...,m^{(0)}_k)$ 。
对样本聚类。对固定的类中心 $m^{(t)} = (m^{(t)}_1, m^{(t)}_l, ..., m^{(t)}_k)$ ，其中， $m^{(t)}$ 为类 $G_l$ 的中心，计算每个样本到中心的距离，将每个样本指派到距离最近的类中，构成聚类结果 $G^{(t)}$ 。
更新聚类中心。根据聚类结果 $G^{(t)}$ ，计算当前各个类中样本的均值，作为新的类中心 $m^{(t+1)} = (m^{(t+1)}_1,m^{(t+1)}_l,...,m^{(t+1)}_k)$ 。
根据约束条件判断是否结束，未结束则返回样本聚类（一般下一次迭代和上一次结果相同）。

3、时间复杂度

k 个类，需要迭代 k 次，每次迭代需要计算 n 个样本的 m 个特征的均值，所以k-means的时间复杂度为O(nmk)，其中 n 为样本数，k 为类别数，m 为特征数。

三、举例计算

人帅字丑。

参考文献

李航.统计学习方法(第二版) [M].北京：清华大学出版社，2019

在这里插入图片描述

code_of_yang

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
机器学习之k均值聚类

文章目录前言一、什么是k-means聚类算法？1、软聚类2、硬聚类二、算法原理介绍1、损失函数2、算法流程3、时间复杂度三、举例计算参考文献前言今天一起学习下机械学习的今典分类算法之k-means一、什么是k-means聚类算法？k均值聚类是基于样本集合划分的聚类算法。简而言之，k 均值聚类将样本划分为 k 个类，将 n 个样本划分到 k 个类中，每个样本到其所属类中心的距离最小。k-means聚类属于硬聚类。1、软聚类软聚类就是把数据以一定的概率分到各类中，比如高斯混合模型(GM
复制链接

扫一扫