Fuzzy C-Means（模糊C均值聚类）算法原理及实现

最新推荐文章于 2023-05-15 16:59:33 发布

红鱼鱼

最新推荐文章于 2023-05-15 16:59:33 发布

阅读量7.7k

点赞数 13

分类专栏：机器学习 c++

本文链接：https://blog.csdn.net/qq_40692109/article/details/103439004

版权

本文介绍了模糊C-均值聚类（FCM）算法，这是一种广泛应用的模糊聚类方法，用于自动对样本数据进行分类。通过优化目标函数确定样本点对类中心的隶属度。模糊聚类在数据分析、数据挖掘等多个领域有重要应用。算法包括初始化、更新隶属度矩阵和聚类中心等步骤，并提供C++实现。

摘要由CSDN通过智能技术生成

模糊c-均值聚类算法 fuzzy c-means algorithm (FCMA)或称（ FCM）。在众多模糊聚类算法中，模糊C-均值（ FCM）算法应用最广泛且较成功，它通过优化目标函数得到每个样本点对所有类中心的隶属度，从而决定样本点的类属以达到自动对样本数据进行分类的目的。

模糊聚类分析作为无监督机器学习的主要技术之一，是用模糊理论对重要数据分析和建模的方法，建立了样本类属的不确定性描述，能比较客观地反映现实世界，它已经有效地应用在大规模数据分析、数据挖掘、矢量量化、图像分割、模式识别等领域，具有重要的理论与实际应用价值，随着应用的深入发展，模糊聚类算法的研究不断丰富。

所谓模糊就是分类具有不确定性，这里用隶属度 $u_{i,j}$ 来表示这个不确定度。 $u_{i,j}$ 表示样本i对第j类的隶属度。我们定义一个目标函数

$J_{m}=\sum_{i=1}^{N}\sum_{j=1}^{C}u_{ij}^{m}\left \| x_{i}-c_{j} \right \|^{2}$

其中每个数据xi对应的所有类别的隶属度之和要为1，即：

$\sum_{i=1}^{C}=1,j=1,2...,N$

m是一个隶属度的因子; i, j是类标号; uij表示样本xi属于j类的隶属度。xi表示第i个样本，是具有d维特征的一个样本。cj表示簇中心，也具有d维度。

聚类的过程就是最小化目标函数的过程。

这里首先采用拉格朗日乘数法将约束条件拿到目标函数中去，前面加上系数，并把后式的所有j展开，那么目标函数式变成下列所示：

$\small J=\sum_{i=1}^{N}\sum_{j=1}^{C}u_{ij}^{m}\left \| x_{i}-c_{j} \right \|^{2}+\lambda _{1}(\sum_{j=1}^{C}u_{1j}-1)+\lambda _{2}(\sum_{j=2}^{C}u_{2j}-1)+...+\lambda _{N}(\sum_{j=1}^{C}u_{Nj}-1)$