聚类算法K-Means原理及 Python 实现

最新推荐文章于 2024-08-21 00:15:00 发布

IMWTJ

最新推荐文章于 2024-08-21 00:15:00 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/imwtj123/article/details/88822166

版权

本文详细介绍了聚类任务和K-Means算法，包括K-Means的基本原理、性能度量、距离计算以及K-Means++的改进。K-Means算法是一种基于数据划分的无监督学习方法，通过不断迭代更新聚类中心来达到最佳划分效果。文章还探讨了K-Means在处理不同属性类型时的距离计算方法，并提供了Python实现的示例。

摘要由CSDN通过智能技术生成

聚类

一、聚类任务

在无监督的学习中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭露数据的内在性质及规律，为进一步的数据的分析提供基础，此类学习任务中研究最多、应用最广泛的是聚类。

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇，通过这样的划分，每个簇可能对应于一些潜在的类别。聚类过程仅能自动形成簇结构，簇对应的概念语义需由使用者来把握和命名。

下面讨论聚类算法涉及的两个基本问题——性能度量和距离计算

二、性能度量

性能度量也称为聚类的 “有效性指标”，在聚类结果中，我们需通过某种性能度量来评估其好坏，另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而得到符合要求的聚类结果。聚类将样本集 D 划分为若干互不相交的子集，即样本簇，我们希望同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。

聚类性能指标大致分为两类——外部指标、内部指标

1.外部指标

指将聚类结果与某个 “参考模型” 进行比较。

则外部指标主要有：

Jaccard 系数（简称 JC ）

$JC=\frac{a}{a+b+c}$

FM 指数（简称 FMI ）

$FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$

Rand 指数（简称 RI ）

$RI=\frac{2(a+b)}{m(m-1)}$

上述性能度量的结果值均在 [0,1] 区间，值越大越好。

2.内部指标

则内部指标主要有：

DB 指数（简称 DBI ）

Dunn 指数（简称 DI )

DBI 的值越小越好，DI 的值越大越好。

三、距离计算

距离度量需要满足一些基本性质：

非负性
同一性（两点相同时，距离为0）
对称性
直递性（也称为三角不等式）

我们常将属性划分为 ”连续属性“ 和 ”离散属性“，前者在定义域有无穷多个取值，后者在定义域有有限个取值。在讨论距离计算时，可以再属性上计算距离的为 ”有序属性“，例如定义域 {1,2,3} 的离散属性和连续属性的性质更接近一些，可以直接计算。而定义域 {飞机、火车、轮船} 这样的离散属性不能直接计算距离，称为 ”无序属性“。

常用的有序属性：