C均值聚类

最新推荐文章于 2024-04-24 23:49:44 发布

EntropyPlus

最新推荐文章于 2024-04-24 23:49:44 发布

阅读量4.1k

点赞数 3

分类专栏：聚类分类算法

本文链接：https://blog.csdn.net/u012759262/article/details/105144335

版权

聚类分类算法专栏收录该内容

6 篇文章 2 订阅

订阅专栏

1. 标准C-Means

1.1. 基本思路

通过迭代寻找c个聚类的一种划分方案，使这c个聚类的代表点——各类样本的均值所得到的总体误差最小。
假设第 $i$ 类样本集合 $\tau_i$ 的数目为 $N_i$ ，则该类样本均值向量为 $\boldsymbol{m_i}$ 的计算公式为：
$\begin{aligned} \boldsymbol{m_i}=\frac{1}{N_i}\sum_{\boldsymbol{y} \in \tau_i}\boldsymbol{y} \end{aligned} \tag{1.1}$
整个样本空间上的误差平方和为
$\begin{aligned} J_e=\sum_{i=1}^{c} \sum_{\boldsymbol{y} \in \tau_i} ||\boldsymbol{y}-\boldsymbol{m_i}||^2 \end{aligned} \tag{1.2}$
$J_e$ 越小，**说明聚类结果越优。**通常称该类划分结果为：最小方差划分。

1.2. 样本在类间调整思路

假设已经有一个样本划分的方案，将样本 $\boldsymbol{y}$ 从 $\tau_i$ 划分到 $\tau_j$ 中，则 $\tau_i$ 和 $\tau_j$ 发生了变化而其他样本类没有发生变化，因此，这两类的均值变化情况为：
$\begin{aligned} \boldsymbol{\widetilde{m}_i}=\frac{1}{N_i-1}\sum_{\boldsymbol{y} \in \{\tau_i-y'\}}\boldsymbol{y}\\ \boldsymbol{m_i}=\frac{1}{N_i}\sum_{\boldsymbol{y} \in \{\tau_i\}}\boldsymbol{y}\\ \end{aligned} \tag{2.1}$

对于失去样本的来来说：
用 $\boldsymbol{\widetilde{m}_i}-\boldsymbol{m_i}$ 得到：
$\begin{aligned} \boldsymbol{\widetilde{m}_i} =& \boldsymbol{m_i}+(\frac{1}{N_i-1}\sum_{\boldsymbol{y} \in \{\tau_i-y'\}}\boldsymbol{y}-\frac{1}{N_i-1} \frac{N_i-1}{N_i}\sum_{\boldsymbol{y} \in \{\tau_i\}}\boldsymbol{y})\\ =&\boldsymbol{m_i}+\frac{1}{N_i-1}(\sum_{\boldsymbol{y} \in \{\tau_i-y'\}}\boldsymbol{y}-\frac{N_i-1}{N_i}\sum_{\boldsymbol{y} \in \{\tau_i\}}\boldsymbol{y})\\ =&\boldsymbol{m_i}+\frac{1}{N_i-1}(\frac{N_i}{N_i}\sum_{\boldsymbol{y} \in \{\tau_i\}}(\boldsymbol{y}-y')-\frac{N_i-1}{N_i}\sum_{\boldsymbol{y} \in \{\tau_i\}}\boldsymbol{y})\\ =&\boldsymbol{m_i}+\frac{1}{N_i-1}[\boldsymbol{y}-\boldsymbol{m_i}] \end{aligned} \tag{2.2}$
对于得到样本的来说：
$\begin{aligned} \boldsymbol{\widetilde{m}_k} =&\boldsymbol{m_k}+\frac{1}{N_k+1}[\boldsymbol{y}-\boldsymbol{m_k}] \end{aligned} \tag{2.2}$
对应的，误差平方和也变为：
$\begin{aligned} \widetilde{J}_i =&J_i+\frac{N_i}{N_i-1}||\boldsymbol{y}-\boldsymbol{m_i}||^2\\ \widetilde{J}_k =&J_k+\frac{N_k}{N_k+1}||\boldsymbol{y}-\boldsymbol{m_k}||^2 \end{aligned} \tag{2.3}$

如果移出一个样本会带来某一类均方误差的减少，移入这个样本会带来另一类均方误差的增大，如果减少量大于增大量，那么
$\begin{aligned} \frac{N_i}{N_i-1}||\boldsymbol{y}-\boldsymbol{m_i}||^2 > \frac{N_k}{N_k+1}||\boldsymbol{y}-\boldsymbol{m_k}||^2 \end{aligned} \tag{2.3}$
则认为该操作是合理的，否则不移动。

1.3. 具体步骤

初始划分c个聚类，计算出这c类的均值和总的均方误差和 $J_e$ 。
任取一个样本 $\boldsymbol{y}$ ，设 $\boldsymbol{y} \in \tau_i$
计算公式(2.3)，其中， $k$ 是除了 $i$ 之外的所有类。
如果移出的损失大于所有移入的损失，则不移动，否则移入损失最小的类中。
重新计算这c类的均值和总的均方误差和 $J_e$ 。
若连续N次 $J_e$ 都不发生改变，则停止，否则转（2）.

1.4. 初始化类的方法

1.4.1 选择代表点

经验选择
将全部数据随机划分成c类，计算每一类的重心，以重心为代表点。
按照样本天然的排列顺序选择c前c个点作为代表

1.4.2 初始类划分

根据其余点与代表点的距离进行划分
每个代表点自成一类，将样本按顺序归入该类中，每次某一类的数量发生改变，则重新计算该类的重心。

2. IOSDATA

2.1 简介

ISODATA全称为Iterative Self-Organizing Data Analysis Techniques：迭代自组织数据分析技术，可以看做是改进的C-means算法，与C-means的区别在于：

C-Means在每次样本所属类别发生变化时，就计算一次均值；而ISODATA 则是在全部样本调整完成之后才重新计算各类的均值。
ISODATA算法在聚类的过程中引入了对类别的评判准则，根据这些准则可以将某些类别合并或者分裂，使得聚类结果更加合理。

2.2 算法流程

2.2.1 符号释义

样本集 $\{\boldsymbol{y_1}, \boldsymbol{y_2}, ..., \boldsymbol{y_N}\}$ ，其中 $\boldsymbol{y_i}$ 代表第 $i$ 个样本，是一个 $\times d$ 维的向量。
$K$ ：期望得到的聚类数
$\theta_N$ ：一个聚类中最少的样本数目
$\theta_s$ ：标准偏差参数
$\theta_c$ ：合并参数
$L$ ：每次迭代允许合并的最大聚类对数
$I$ ：允许迭代的次数

2.2.2 算法步骤

初始化聚类数目c（不一定要是K），初始化的方法与C均值差不多，选取代表点。
判断其余点与代表点的距离，按照距离对其余点进行划分。
若某个类 $\tau_j$ 中样本的数目过少（ $N_j<\theta_N$ ），则去掉该类，将该类中的样本分配到其他类中，聚类的数目 $c = c - 1$
重新计算每一类的均值。
$\boldsymbol{m_j}=\frac{1}{N_j}\sum_{\boldsymbol{y} \in \tau_j}\boldsymbol{y}$
计算第 $j$ 类中，样本与该类均值的平均距离：
$\bar{\delta_j} =\frac{1}{N_j}\sum_{\boldsymbol{y} \in \tau_j}||\boldsymbol{y}-\boldsymbol{m_j}||, j=1....c$
总平均距离：
$\bar{\delta} =\frac{1}{N}\sum_{i=1}^{c}N_i \bar{\delta_i}$
如果满足迭代次数满足要求，则结束；如果 $\leqslant K/2$ ，则执行分裂操作 ；如果 $\geqslant 2K$ ，则执行合并操作。
如果是最后一次迭代，停止，否则转向2。

2.2.3 分裂操作

对于每个类，求各维标准偏差 $\boldsymbol{\sigma_j}=[\sigma_{j1}, \sigma_{j2},...,\sigma_{jd}]^T$ ，（大白话就是对第 $j$ 类中的每一个特征都计算其标准差），具体计算公式为：
$\sigma_{ji}=\sqrt{\frac{1}{N}\sum_{\boldsymbol{y}_k \in \tau_j}(y_{ki}-m_{ji})}$
在上式中， $y_{ki}$ 为第 $k$ 个样本的第 $i$ 个特征， $m_{ji}$ 代表第 $j$ 个聚类均值的第 $i$ 个分量； $\sigma_{ji}$ 是第 $j$ 个类的第 $i$ 个分量的标准偏差。
对每个类，求出标准偏差最大的分量 $\sigma_{j\max}, j=1,2,...,c$ 。（其实就相当于落实到某一个类的某个特征上）
对各类的 $\sigma_{j\max}$ ，如果满足以下条件（注意，这里仅仅是选出了两个代表点而已）：
1. 存在某个类的 $\sigma_{j\max}>\theta_s$ ， $\bar{\delta_j}>\bar{\delta}$ ， $N_j>2(\theta_N+1)$
2. 存在某个类的 $\sigma_{j\max}>\theta_s$ ， $\bar{\delta_j}>\bar{\delta}$ ， $\leqslant K/2$
将 $\tau_{j}$ 分成2类，中心分别为 $\boldsymbol{m}_j^+$ 与 $\boldsymbol{m}_j^-$ ，此时 $c = c + 1$ ，其中， $\boldsymbol{m}_j^+$ 与 $\boldsymbol{m}_j^-$ 的计算公式为：
$\boldsymbol{m}_j^+=\boldsymbol{m}_j + \boldsymbol{\gamma}_j \\ \boldsymbol{m}_j^-=\boldsymbol{m}_j - \boldsymbol{\gamma}_j$
$\boldsymbol{\gamma}_j=k\boldsymbol{\sigma}_j, k \in (0,1 ]$ 或者， $\boldsymbol{\gamma}_j=[0,...,0,\sigma_{i\max},0,...,0]^T$

2.2.4 合并操作

计算各类中心两两之间的距离
$\delta_{ij}=||\boldsymbol{m}_i-\boldsymbol{m}_j||, i, j = 1,2,...,c , i \neq j$
比较 $\delta_{ij}$ 与 $\theta_c$ （合并参数），对**小于 $\theta_c$ **的距离排序：
$\delta_{i_1,j_1}< \delta_{i_2,j_2},...,\delta_{i_l,j_l}$
从最小的 $\delta_{i_1,j_1}$ 开始把每个 $\delta_{i_l,j_l}$ 对应的 $m_{i_l},m_{j_l}$ 合并，组成新类，新的中心为：
$m_l=\frac{1}{N_{i_l}+N_{j_l}}[N_{i_l}m_{i_l}+N_{j_l}m_{j_l}]$

3. 基于样本与核相似度的动态聚类算法

3.1 C-Means与IOSDATA面临的问题

如果数据样本的两类分布如下图所示，这个时候两类的均值不能很好的代表一类，虽然二者都服从正态分布，但是方差比较大，那么，在图中A点明显距离第二类比较近，这可能会导致分类错误。
在这里插入图片描述
所以，这个时候需要使用其他方法代表每个聚类。
在C-Means中，准则函数为：整个样本空间上的误差平方和为
$J_e=\sum_{i=1}^{c} \sum_{\boldsymbol{y} \in \tau_i} ||\boldsymbol{y}-\boldsymbol{m_i}||^2 \tag{1.2}$
$J_e$ 越小，**说明聚类结果越优。

针对目前这种分布，我们选用的准则函数为：
$J_K=\sum_{i=1}^{c} \sum_{\boldsymbol{y} \in \tau_j} \Delta (\boldsymbol{y},\boldsymbol{K_j}) \tag{1.2}$
其中， $\Delta$ 表示某种距离度量， $J_K$ 越小，说明聚类结果越优。

3.2 具体步骤

选择初始划分，将样本集划分成 $c$ 类，确定每类的初始核 $K_j, j=1,2,...,c$ 。
按照下列规则将每个样本划分到对应的类中。
$\Delta (\boldsymbol{y}, \boldsymbol{K_j})=\min_k \Delta (\boldsymbol{y}, \boldsymbol{K_k}), k=1,2,...,c$
则 $\boldsymbol{y} \in \tau_j$
重新修正核 $K_j, j=1,2,...,c$ ，若 $k$ 不变，则算法终止，否则转2.

相对的，在C-Means中，类均值对应核，样本到均值的欧式距离相当于 $\Delta (\boldsymbol{y}, \boldsymbol{K_j})$

3.3 常用的核函数

3.3.1 正态核函数

如果数据分布类似于下图：
在这里插入图片描述
则可选用正态核：
$\boldsymbol{K_j} (\boldsymbol{y}, \boldsymbol{V_j})=\frac{1}{(2\pi)^{d/2}|\hat{\Sigma_j}|^{1/2}}\exp\{-\frac{1}{2}(\boldsymbol{y}-\boldsymbol{m_j})^T\hat{\Sigma_j}^{-1}(\boldsymbol{y}-\boldsymbol{m_j})\}$
其中，参数集 $\boldsymbol{V_j}$ 包括： $\boldsymbol{m_j}, \hat{\Sigma_j}$ ，分别代表第 $j$ 类的样本均值和协方差矩阵。
样本到核的相似性度量为：
$\Delta (\boldsymbol{y}, \boldsymbol{K_j})=\frac{1}{2}(\boldsymbol{y}-\boldsymbol{m_j})^T\hat{\Sigma_j}^{-1}(\boldsymbol{y}-\boldsymbol{m_j})+\frac{1}{2}\log|\hat{\Sigma_j}|$

3.3.2 主轴核函数

在这里插入图片描述

4. 模糊C-Means方法（Fuzzy C-means, FCM）

4.1 模糊集的基本知识

4.1.1 什么是模糊集

在传统的集合中，一个元素要么属于一个集合，要么不属于一个集合。但是在模糊集中，一个元素可以是以一定程度属于某个集合，也可以以不同程度的属于多个集合。

4.1.2 隶属度函数

隶属度函数是一个对象 $x$ 隶属于集合A的程度。记为 $\mu_A(x)$ 。自变量是集合A中的所有对象， $\leq \mu_A(x) \leq 1$ 。当 $\mu_A(x) = 1$ 说明 $x$ 完全属于A； $\mu_A(x) =0$ 说明 $x$ 完全不属于A。

模糊集合A:
对于有限个对象 $x_1, x_2, ..., x_n$ 来说，若这 $n$ 个值都可能存在于集合A中，则模糊集合A可以表示为：
$A=\{(\mu_A(\boldsymbol{x_i}), \boldsymbol{x_i})\} \tag{4.1}$
或者
$A=\bigcup _i\mu_i/ \boldsymbol{x_i} \tag{4.2}$

支持集 $S (A)$ ：
空间X中A的隶属度大于0的对象的集合。
$S(A)=\{\boldsymbol{x}, \boldsymbol{x} \in X, \mu_A(\boldsymbol{x})>0\} \tag{4.3}$

4.3 算法思想

4.3.1 符号说明

$n$ 个样本集合： $\{\boldsymbol{x_i}, i=1,2,...,3\}$
预定类别的数目： $c$
每个聚类的中心： $\boldsymbol{m_i}, i=1,2,...,c$
第 $i$ 个样本对于第 $j$ 类的隶属度： $\mu_j(\boldsymbol{x_i})$

（因为模糊集表示的是样本属于某个类的程度，所以要考虑所有的样本）
模糊C-means的聚类损失函数可以写成：
$J_f=\sum_{j=1}^c \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 \tag{4.4}$

C-means中的聚类损失函数为：
$J_e=\sum_{i=1}^{c} \sum_{\boldsymbol{y} \in \tau_i} ||\boldsymbol{y}-\boldsymbol{m_i}||^2 \tag{1.2}$

在公式4.4中， $b$ 代表控制聚类结果模糊程度的常数，通常为2。

$b = 1$ ：等同于C-means的确定性聚类结果
$b > 1$ ：控制模糊程度的聚类结果
$\rightarrow \infty$ ：完全模糊的解，各类算法都收敛到训练样本的中心，所有样本都以等同的概率归属各个类，所以没有聚类的意义。

4.3.2 FCM的损失函数

要求一个样本对于各个聚类的隶属度之和为1，用公式表示为 $\sum_{j=1}^c\mu_j(\boldsymbol{x_i})=1, i=1,2,...,n$ ，结合限制条件，可以求得：
$\min J_f=\sum_{j=1}^c \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 \\ s.t. \sum_{j=1}^c[\mu_j(\boldsymbol{x_i})]=1, i=1,2,...,n \tag{4.5}$
引入n个拉格朗日因子：
$\min J_f = \sum_{j=1}^c \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 - \sum_{i=1}^n\lambda_i(\sum_{j=1}^c[\mu_j(\boldsymbol{x_i})]-1) \tag{4.6}$
对均值 $\boldsymbol{m_j}$ 求导有：
$\begin{aligned} \frac{\partial J_f}{\partial \boldsymbol{m_j}} &= -2 \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b ||\boldsymbol{x_i}-\boldsymbol{m_j}|| \\ &= -2 \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b \boldsymbol{x_i}+ 2 \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b \boldsymbol{m_j } \\ \boldsymbol{m_j} &= \frac { \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b\boldsymbol{x_i} } { \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b } \end{aligned} \tag{4.7}$

对隶属度 $\mu_j(\boldsymbol{x_j})$ 求导，记 $\mu_j(\boldsymbol{x_j})$ 为 $\mu_{ji}$ ，后一半的求导结果为：
$\begin{aligned} \frac{\partial J_f}{\partial \mu_{ji}} &=-\frac{\partial }{\partial \mu_{ji}} \sum_{i=1}^n\lambda_i(\sum_{j=1}^c [\mu_{ji}]-1)\\ &=-\frac{\partial }{\partial \mu_{ji}} \sum_{i=1}^n(\sum_{j=1}^c \lambda_i[\mu_{ji}]-\lambda_i)\\ &=-\sum_{i=1}^n \sum_{j=1}^c \lambda_i\\ &=-\sum_{i=1}^n c \lambda_i \end{aligned} \tag{4.8}$

前一半的求导结果为：
$\begin{aligned} \frac{\partial J_f}{\partial \mu_{ji}} &=\sum_{i=1}^n \sum_{j=1}^c b \mu_{ji}^{b-1} ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 \end{aligned}$

即令：
$\begin{aligned} \frac{\partial J_f}{\partial \mu_{ji}} &=\sum_{i=1}^n \sum_{j=1}^c b \mu_{ji}^{b-1} ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2-\sum_{i=1}^n c \lambda_i=0\\ &=\sum_{i=1}^n (\sum_{j=1}^c b \mu_{ji}^{b-1} ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 - c \lambda_i) = 0\\ \end{aligned} \tag{4.9}$
即相当于：
$\begin{aligned} \sum_{j=1}^c b \mu_{ji}^{b-1} ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 - c \lambda_i =& 0\\ \sum_{j=1}^c (b \mu_{ji}^{b-1} ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 - \lambda_i)=& 0 \\ \Rightarrow b \mu_{ji}^{b-1} ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 - \lambda_i =& 0 \\ \Rightarrow \mu_{ji} =&( \frac{\lambda_i}{b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2})^{\frac{1}{b-1}} \end{aligned} \tag{4.10}$
因为：
$\sum_{j=1}^c[\mu_{ji}]=1$
所以（等式4.11中，注意 $\lambda_i^{\frac{1}{b-1}}$ 实际上是在分母的位置）
$\begin{aligned} \sum_{j=1}^c( \frac{\lambda_i}{b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2})^{\frac{1}{b-1}}&=1 \\ ( \frac{\lambda_i}{b ||\boldsymbol{x_i}-\boldsymbol{m_1}||^2})^{\frac{1}{b-1}}+...+( \frac{\lambda_i}{b ||\boldsymbol{x_i}-\boldsymbol{m_c}||^2})^{\frac{1}{b-1}}&=1 \\ \frac{\sum_{j=1}^c (b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^{\frac{-1}{b-1}}}{(\lambda_i)^{\frac{-1}{b-1}}}&=1 \\ \sum_{j=1}^c (b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^{\frac{-1}{b-1}}&=(\lambda_i)^{\frac{-1}{b-1}}\\ \frac{1}{\sum_{j=1}^c (b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^{\frac{-1}{b-1}}}=&(\lambda_i)^{\frac{1}{b-1}}\\ \frac{1}{\sum_{j=1}^c (\frac{1}{(b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)})^{\frac{1}{b-1}}}=&(\lambda_i)^{\frac{1}{b-1}}\\ \end{aligned} \tag{4.11}$
将4.11代入4.10
$\begin{aligned} \Rightarrow \mu_{ji} =&( \frac{\lambda_i}{b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2})^{\frac{1}{b-1}} \\\\ =& \frac{ \frac{1}{\sum_{j=1}^c (\frac{1}{(b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)})^{\frac{1}{b-1}}} }{(b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^\frac{1}{b-1}}\\\\ =& \frac{ \frac{1}{(b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^\frac{1}{b-1}} }{ \sum_{j=1}^c (\frac{1}{(b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)})^{\frac{1}{b-1}} }\\\\ =& \frac{ \frac{1}{(||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^\frac{1}{b-1}} }{ \sum_{j=1}^c (\frac{1}{( ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)})^{\frac{1}{b-1}} } \end{aligned} \tag{4.12}$

4.3.3 具体步骤

设定聚类数目c和参数b
初始化各个聚类的中心 $\boldsymbol{m_i}$
重复下列运算，直到各个样本的隶属度稳定
1. 根据聚类中心 $\boldsymbol{m_j}$ 计算隶属度函数 $\mu_j(\boldsymbol{x_i})$
2. 使用隶属度函数 $\mu_j(\boldsymbol{x_i})$ 更新隶属度。

5. 改进后的模糊C-Means方法

5.1 算法思想

FZM算法从样本的归属性方面进行了改进，但是针对野点的情况无法有效的解决。设想这样一种情况，某个样本远离各类的聚类中心，而FCM中要求该样本对于各类的隶属度之和为1，即 $\sum_{j=1}^c[\mu_j(\boldsymbol{x_i})]=1, i=1,2,...,n$ ，这样某个野点对最终的迭代效果具有很大的影响。

因此，为了克服此类情况，人们对限制条件进行了修改：
$\sum_{j=1}^{c}\sum_{i=1}^{n}[\mu_j(\boldsymbol{x_i})]=n, i=1,2,...,n \tag{5.1}$
在该条件下，拉格朗日函数为：
$\min J_f = \sum_{j=1}^c \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2 - \sum_{i=1}^n \lambda_i(\sum_{k=1}^n\sum_{j=1}^c[\mu_j(\boldsymbol{x_i})]-n) \tag{5.2}$
对均值 $\boldsymbol{m_j}$ 求导结果不变，仍然为：
$\begin{aligned} \frac{\partial J_f}{\partial \boldsymbol{m_j}} &= -2 \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b ||\boldsymbol{x_i}-\boldsymbol{m_j}|| \\ &= -2 \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b \boldsymbol{x_i}+ 2 \sum_{i=1}^n \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b \boldsymbol{m_j } \\ \boldsymbol{m_j} &= \frac { \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b\boldsymbol{x_i} } { \begin{bmatrix} \mu_j(\boldsymbol{x_i}) \end{bmatrix}^b } \end{aligned} \tag{5.3}$

对隶属度 $\mu_j(\boldsymbol{x_j})$ 求导，记 $\mu_j(\boldsymbol{x_j})$ 为 $\mu_{ji}$ ，前一半的结果不变，后一半的求导结果为：
$\begin{aligned} \frac{\partial J_f}{\partial \mu_{ji}} &=-\frac{\partial }{\partial \mu_{ji}} \sum_{i=1}^n\lambda_i(\sum_{k=1}^n\sum_{j=1}^c [\mu_{ji}]-1)\\ &=-\frac{\partial }{\partial \mu_{ji}} \sum_{i=1}^n(\sum_{k=1}^n\sum_{j=1}^c \lambda_i[\mu_{ji}]-\lambda_i)\\ &=-\sum_{i=1}^n \sum_{k=1}^n \sum_{j=1}^c \lambda_i\\ &=-\sum_{i=1}^n \sum_{k=1}^n c \lambda_i \end{aligned} \tag{5.4}$
后面的推导思想同(4.9)~(4.12)，最后的结果为：
$\begin{aligned} \Rightarrow \mu_{ji} =& \frac{ \frac{n}{(||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)^\frac{1}{b-1}} }{ \sum_{j=1}^c\sum_{k=1}^n (\frac{1}{( ||\boldsymbol{x_i}-\boldsymbol{m_j}||^2)})^{\frac{1}{b-1}} } \end{aligned} \tag{5.5}$