模糊C聚类（Fuzzy C-means Clustering, FCM）-CSDN博客

本文链接：https://blog.csdn.net/deepsprings/article/details/106820626

本文深入探讨模糊C均值聚类（FCM）算法，解析其思想、推导过程及实现细节，通过实例展示如何优化聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

模糊C聚类（Fuzzy C-means Clustering, FCM）

模糊C聚类（Fuzzy C-means Clustering, FCM）

1. 思想

簇内距离尽量小（*）
簇间距离尽量大

2. 说明

某种程度上类似于 LDA 的思想，但他们间有明显差距，LDA是属于监督学习下的降维操作，而该聚类基于非监督；
过程跟ｋ-means聚类类似，区别在于FCM计算了(中心)点到所有数据点的距离，增加了隶属于某一簇的概率值（隶属值），还有属于某一簇的重视程度 m ( $\gt 1$ )

3. 推导

3.1 初始条件

假设有Ｎ个原始数据点 $(x_1, x_2, \cdots, x_N)$ ，设定有 L 个簇，初始簇心手动设定为 $C=(c_1, c_2, \cdots, c_l)$ ．

示意图如下(L=3时)

在这里插入图片描述

3.2 目标函数

计算每个数据点到簇心的距离(以到第一个簇心 $c_1$ 为例)
$d_1 = ||x_1-c_1||^2+||x_2-c_1||^2+\cdots+||x_N-c_1||^2$
为了表征一点到不同簇心的隶属程度，设定这些点到某一簇心的概率（隶属值，Membership values）为 $u_{ki}$ ，该值表示第 i 点到第 k 个簇心的隶属值。点与簇心距离越大，该值越小。对于同一点来说，有
$u_{1i} + u_{2i} + \cdots + u_{Li} = 1$
即，同一点到所有簇心隶属值和为 1

同时为了表示该点实实在在属于某一类，如图中右侧数据的某点属于蓝色x 的重要程度更高，引入另一个参数：模糊系数（Fuzzifier） m

关于引入了隶属值 $u_{ki}$ 后为什么还要引入模糊系数m？

那么加权后，每个数据点到簇心 $c_1$ 的距离和为
$\begin{aligned} d'_1 &= u_{11}^m||x_1-c_1||^2 + u_{12}^m||x_2-c_1||^2 + \cdots + u_{1N}^m||x_N-c_1||^2 \\ &= \sum\limits_{i=1}^N u_{1i}^m||x_i-c_1||^2 \end{aligned}$
对于所有点到所有簇心距离和为
$\sum\limits_{k=1}^L \sum\limits_{i=1}^N u_{ki}^m||x_i-c_k||^2$
该方程就是目标函数，优化方法是最小化该函数
$\begin{aligned}Min\ \ \ J(u_{ki}, c_k) &= \sum\limits_{k=1}^L \sum\limits_{i=1}^N u_{ki}^m||x_i-c_k||^2 \\s.t\ \ \sum\limits_{k=1}^L u_{ki} &= 1,\ \ i = 1,2,\cdots,N\end{aligned}\tag{1*}$