模糊c–均值聚类算法的原理解释及推导

最新推荐文章于 2023-05-15 16:59:33 发布

Super__Tiger

最新推荐文章于 2023-05-15 16:59:33 发布

阅读量6.1k

点赞数 23

分类专栏： # 机器学习文章标签：模糊c-均值聚类聚类算法机器学习

本文链接：https://blog.csdn.net/acceptedday/article/details/119834926

版权

机器学习专栏收录该内容

18 篇文章

订阅专栏

文章目录

模糊𝑐–均值聚类算法的原理解释及推导

模糊𝑐–均值聚类算法的原理解释及推导

前置知识：𝑘–均值聚类的缺陷

算法要求每个样本数据点在一次迭代过程中只能被划分到某个特定的簇中。
样本数据并非都满足这种非此即彼的刚性划分。

在k-均值聚类存在缺陷的情况下，我们提出了模糊c-均值聚类算法。

核心部分：模糊𝑐–均值聚类

基本思想：

使用模糊数学中属于[0,1]区间的隶属度指的是度量单个样本隶属于各个簇的程度。
规定每个样本到所有簇的隶属度之和均为1，若某个样本到某个簇的隶属度为1，则表示该样本完全隶属于该簇。

原理推导：

如图所示：
给定示例样本数据集𝐷 = {𝑋₁, 𝑋₂, … , 𝑋_𝑛}，假设对数据集𝐷进行模糊聚类得到𝑐个簇𝐶₁, 𝐶₂, … , 𝐶_𝑐，𝐷中任意给定单个样本𝑋_𝑖对于第𝑗个簇𝐶_𝑗的隶属度为𝛼_𝑖𝑗，则可使用如下加权欧式距离𝑤_𝑖𝑗度量样本𝑋_𝑖与簇𝐶_𝑗之间的相关性：
$\mathbf{w}_{\mathbf{ij}}=\mathbf{\alpha }_{\mathbf{ij}}\left( \sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2} \right) ^{\frac{1}{2}}$
其中𝑢_𝑗𝑡表示第𝑗个簇𝐶_𝑗的聚类中心𝑈_𝑗第𝑡个坐标分量。
依据上述加权欧式距离𝑤_𝑖𝑗计算公式可得所有簇内加权距离之和为：
$\mathbf{d}\left( \mathbf{\alpha }_{\mathbf{ij}} \right) =\sum_{\mathbf{j}=1}^{\mathbf{c}}{\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}\left( \sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2} \right) ^{\frac{1}{2}}}}$
为控制隶属度对聚类最终效果的影响并简化计算，可将上述加权距离之和𝑑(𝛼_𝑖𝑗)改写为如下形式：
$\mathbf{J}\left( \mathbf{\alpha }_{\mathbf{ij}} \right) =\sum_{\mathbf{j}=1}^{\mathbf{c}}{\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}}}$
其中𝑝为控制隶属度影响的参数，通常取𝑝 = 2 ，并且𝑝值越大，则隶属度对最终的聚类效果影响就越大。（因为 $\sum_{\mathbf{j}=1}^{\mathbf{c}}{\mathbf{\alpha }_{\mathbf{ij}}}=1$ ，然后p越大， $\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}$ 使得不同类别的 $\mathbf{\alpha }_{\mathbf{ij}}$ 之间的差距变大）
上述关于𝛼_𝑖𝑗的函数𝐽(𝛼_𝑖𝑗)既包含所有簇内加权总距离，又包含该聚类算法边界划分的模糊程度，故可将其作为目标函数将样本数据集𝐷的模糊聚类问题转化为J(𝛼_𝑖𝑗)的最小值优化问题（这里的意思，就是找到使得x_i到c个聚类中心的加权距离和最小的𝛼_𝑖𝑗，其中i=1,2,…,c），即：
$\mathbf{arg}_{\mathbf{\alpha }_{\mathbf{ij}}}\min \mathbf{J}\left( \mathbf{\alpha }_{\mathbf{ij}} \right) \text{；}\mathbf{s}.\mathbf{t}.\sum_{\mathbf{j}=1}^{\mathbf{c}}{\mathbf{\alpha }_{\mathbf{ij}}}=1$
可用拉格朗日乘数法求解上述条件优化问题。令拉格朗日函数为：
$\overset{\land}{\mathbf{J}}\left( \mathbf{\alpha }_{\mathbf{ij}} \right) =\sum_{\mathbf{j}=1}^{\mathbf{c}}{\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}}}+\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\lambda }_{\mathbf{i}}\left( \sum_{\mathbf{j}=1}^{\mathbf{c}}{\mathbf{\alpha }_{\mathbf{ij}}}-1 \right)}$
分别令 $\overset{\land}{\mathbf{J}}\left( \mathbf{\alpha }_{\mathbf{ij}} \right)$ 对 $\mathbf{\alpha }_{\mathbf{ij}}$ 的偏导数为0，则有：
$\frac{\partial \overset{\land}{\mathbf{J}}}{\partial \mathbf{\alpha }_{\mathbf{ij}}}=\sum_{\mathbf{j}=1}^{\mathbf{c}}{\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{p\alpha }_{\mathbf{ij}}^{\mathbf{p}-1}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}}}+\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{c\lambda }_{\mathbf{i}}}=0$
备注：因为是对每一个𝛼_𝑖𝑗进行求偏导优化，所以去掉了最外层的对j=1~c的累加求和。

解得： $\mathbf{\alpha }_{\mathbf{ij}}=\left[ \frac{-\mathbf{\lambda }_{\mathbf{i}}}{\mathbf{p}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}} \right] ^{\frac{1}{\mathbf{p}-1}}$
然后结合隶属度约束条件 $\sum_{\mathbf{k}=1}^{\mathbf{c}}{\mathbf{\alpha }_{\mathbf{ik}}}=1$ ，可求解出 $\left( \frac{-\mathbf{\lambda }_{\mathbf{i}}}{\mathbf{p}} \right) ^{\frac{1}{\mathbf{p}-1}}$ 的表达式：
$\sum_{\mathbf{k}=1}^{\mathbf{c}}{\left[ \frac{-\mathbf{\lambda }_{\mathbf{i}}}{\mathbf{p}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{kt}} \right) ^2}} \right] ^{\frac{1}{\mathbf{p}-1}}}=1\Longleftrightarrow \left( \frac{-\mathbf{\lambda }_{\mathbf{i}}}{\mathbf{p}} \right) ^{\frac{1}{\mathbf{p}-1}}\,\,* \left[ \sum_{\mathbf{k}=1}^{\mathbf{c}}{\frac{1}{\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{kt}} \right) ^2}}} \right] ^{\frac{1}{\mathbf{p}-1}}=1 \\ \Longleftrightarrow \left( \frac{-\mathbf{\lambda }_{\mathbf{i}}}{\mathbf{p}} \right) ^{\frac{1}{\mathbf{p}-1}}=\,\,\left[ \sum_{\mathbf{k}=1}^{\mathbf{c}}{\frac{1}{\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{kt}} \right) ^2}}} \right] ^{-\frac{1}{\mathbf{p}-1}}$
然后代入𝛼_𝑖𝑗的表达式进一步消去参数𝜆_𝑖，，得到隶属度𝛼_𝑖𝑗的计算公式：
$\mathbf{\alpha }_{\mathbf{ij}}=\left[ \frac{-\mathbf{\lambda }_{\mathbf{i}}}{\mathbf{p}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}} \right] ^{\frac{1}{\mathbf{p}-1}}=\left[ \sum_{\mathbf{k}=1}^{\mathbf{c}}{\frac{1}{\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{kt}} \right) ^2}}} \right] ^{-\frac{1}{\mathbf{p}-1}}* \left[ \frac{1}{\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}} \right] ^{\frac{1}{\mathbf{p}-1}} \\ =\frac{1}{\left[ \sum_{\mathbf{k}=1}^{\mathbf{c}}{\frac{\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right) ^2}}{\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{kt}} \right) ^2}}} \right] ^{\frac{1}{\mathbf{p}-1}}}$
上式表明第𝑖个样本到第𝑗个簇的最佳隶属度𝛼_𝑖𝑗取决于该样本点到第𝑗个簇心的距离与其到所有簇心距离的比值之和。
将目标函数 $\overset{\land}{\mathbf{J}}\left( \mathbf{\alpha }_{\mathbf{ij}} \right)$ 看成是聚类中心𝑢_𝑗𝑡的函数，即 $\overset{\land}{\mathbf{J}}\left( \mathbf{u}_{\mathbf{jt}} \right)$ ，并由此通过对目标函数 $\overset{\land}{\mathbf{J}}\left( \mathbf{u}_{\mathbf{jt}} \right)$ 作最小值优化计算进一步得到各簇最优聚类中心坐标𝑈_𝑗。为此，分别令 $\overset{\land}{\mathbf{J}}\left( \mathbf{u}_{\mathbf{jt}} \right)$ 关于𝑢_𝑗𝑡的偏导数为0，可得到如下方程：
$-2\sum_{\mathbf{j}=1}^{\mathbf{c}}{\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right)}}}=0 \\ \sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}\sum_{\mathbf{t}=1}^{\mathbf{m}}{\left( \mathbf{x}_{\mathbf{it}}-\mathbf{u}_{\mathbf{jt}} \right)}}=0$
备注：因为是对特定的u_j进行求偏导优化，所以去掉了最外层的对j=1~c的累加求和。
由此，可得如下聚类中心计算公式：
$\mathbf{u}_{\mathbf{j}}=\frac{\sum_{\mathbf{j}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}\mathbf{x}_{\mathbf{i}}\,\,}}{\sum_{\mathbf{i}=1}^{\mathbf{n}}{\mathbf{\alpha }_{\mathbf{ij}}^{\mathbf{p}}}}$

算法流程及实例分析：

模糊𝑐–均值聚类算法依据上述隶属度和聚类中心计算公式，算法具体步骤如下：

（1）设定簇的数目𝑐和阈值𝜀，并令𝑠 = 0。随机初始化所有样本对所有簇的隶属度，并将其记录在隶属度矩阵𝑄中，即：
$\mathbf{Q}^0=\left( \begin{matrix} \mathbf{\alpha }_{11}& ..& \mathbf{\alpha }_{1\mathbf{c}}\\ ..& ..& ..\\ \mathbf{\alpha }_{\mathbf{n}1}& ..& \mathbf{\alpha }_{\mathbf{nc}}\\ \end{matrix} \right)$
其中元素𝛼_𝑖𝑗为非负实数且满足隶属度约束条件 $\sum_{\mathbf{j}=1}^{\mathbf{c}}{\mathbf{\alpha }_{\mathbf{ij}}}=1$ 。

（2）使用隶属度矩阵𝑄计算各簇的聚类中心 $\mathbf{u}_{\mathbf{j}}^{\mathbf{s}}$ ,𝑗 = 1,2, … , 𝑐，计算目标函数值J^s。

（3）若𝐽^𝑠≥ε或| 𝐽^𝑠 − 𝐽^𝑠−1| ≥ ε，则更新隶属度矩阵𝑄，令𝑠=𝑠+1并返回步骤2；否则，依据隶属度矩阵𝑄^𝑠得到聚类结果并结束算法。
例题：现假设在二维平面中有6个点，如表所示,试使用模糊𝑐–均值聚类算法对数据集进行模糊二均值聚类，当每个聚中心相邻两次迭代的变化均小于10−4时停止聚类过程并算出相应的聚类中心和隶属度矩阵结果。