模糊聚类总结--基于对距离的改进_距离矩阵模糊聚类-CSDN博客

本文链接：https://blog.csdn.net/ZD_SHENHAI/article/details/144978763

mo模糊聚类算法总结
基础的常用聚类算法：k-means (Macqueen, 1967), C-means (Bezdek, 1981) (Dunn, 1974), and possibilistic C-means (Krishnapuram & Keller, 1996).

根据模糊聚类的更新公式和参数，模糊聚类可从以下方式改进：
Fuzzy trees and forests—Review

Fuzzy-C-means:

目标函数：最小化簇内误差平方和（Within-Cluster Sum of Squares, WCSS）
$\sum_{i=1}^{c} \sum_{k=1}^{N}\mu_{ik}^m d_{ik}^2$
其中， $N$ 是训练集中的样本数量， $\mu_{ik}$ 是第 $i$ 个簇中第 $k$ 个样本的隶属度， $m$ 是模糊化参数， $d_{ik}$ 是第 $k$ 个样本与第 $i$ 个簇之间的距离。令 $x_k$ 为样本， $v_i$ 为 $i$ 簇的原型(簇中心)。距离 $d_{ik}$ 定义为：
$d_{ik} = \mid\mid x_k - v_i \mid\mid$
这是一个距离函数。针对不同问题，可采用欧式距离、核函数距离、曼哈顿距离、切比雪夫距离或马哈拉诺比斯距离等。
簇中心更新公式：
$v_i = \frac{\sum_{k=1}^{N}\mu_{ik}^m x_k}{\sum_{k=1}^{N}\mu_{ik}^m}$
其中， $1,2,\dots,c$ .
模糊划分矩阵更新公式为：
$\mu_{ik} = \frac{1}{\sum_{j=1}^{c}(\frac{d_{ik}}{d_{ik}})^{\frac{2}{m-1}}}$
其中， $1,2,\dots,c$ ， $1,2,\dots,N$ .

基于Minkowski 距离的模糊聚类算法：

$优势：\textbf{适用不同的簇形状}$
Minkowski 距离距离公式：
$d(\mathbf{x}, \mathbf{y}) = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{\frac{1}{p}}$
Groenen、Kaymak 和 van Rosmalen (2007) 提出了采用 Minkowski 距离函数方法的模糊聚类。最小化目标函数：
$\sum_{i=1}^c \sum_{k=1}^N u_{ik}^m d_{ik}^{2\lambda}$
限制条件： $\leq u_{ik} \leq 1, \quad \sum_{i=1}^c u_{ik} = 1$ 。其中，λ 为 Minkowski 距离的 λ 次根，sh 为定义簇形状的参数。样本 $x_k$ 和簇 $c_i$ 之间的距离可以通过以下方式定义：
$d_{ik}^{2\lambda} = \left( \sum_{j=1}^n \left| x_{kj} - v_{ij} \right|^{sh} \right)^{\frac{2\lambda}{sh}}, \quad 1 \leq sh < \infty, \quad 0 \leq \lambda \leq 1$
注意： $1,2\cdots,n$ 是样本为度。其实，Minkowski 距离公式没变，只是等式两边都进行了 $2\lambda$ 次方。 λ 值越大，小距离和大距离之间的差异非常显著。λ 值越大，差异会减小。

$\textbf{注意}$ ：可以使用参数 sh 调整簇的形状以适应特定问题。对于 sh = 2，簇是圆形的。当 sh = 1 时，簇呈菱形或旋转方形。 $\rightarrow ∞$ ，簇是矩形且平行于轴。当数据结构的形状类似于矩形且具有锐利边缘时，接近 1 或 ∞ 的参数 sh 值可能很有用（Bobrowski & Bezdek，1991）。

簇中心更新公式：
$v_{ij} = \frac{\sum_{k=1}^N a_{ijk} x_{kj}}{\sum_{k=1}^N a_{ijk}}, \quad i = 1, 2, \dots, c, \quad j = 1, 2, \dots, n$
其中， $a_{ijk} = u_{ik}^m d_{ik}^{2\lambda - sh} \left( x_{kj} - v_{ij} \right)^{sh - 2}$ 。

隶属度更新公式为：
$u_{ik} = \frac{\left( d_{ik}^{2\lambda} \right)^{-\frac{1}{m-1}}}{\sum_{l=1}^c \left( d_{lk}^{2\lambda} \right)^{-\frac{1}{m-1}}}$
其中 m 是模糊化参数，其取值范围为 m ≥ 1 ， m 越大， $\frac{−1}{ m−1 }$ 越接近 0。因此， $\left( d_{ik}^{2\lambda} \right)^{-\frac{1}{m-1}}$ 越接近 1。大多数情况下 m 值相对较小，常取值2.

基于包含度的模糊聚类算法：

将距离概念换为包含度：
基于包含的模糊聚类的概念是在（Nefti-Meziani & Oussalah，2007）中提出的。在执行该聚类方法之前应该做的第一件事是构建包含索引。设 $G_i$ 为第 $i$ 个高斯模糊集， $m_i$ 为第 $i$ 个高斯模糊集的平均值， $σ_i$ 为第 i 个高斯模糊集的标准差(SD)， $\sigma_i$ = $\sigma_i$ 为第 $i$ 个高斯模糊集的 SD 乘以3（这种简化是因为高斯模糊集 98% 的值集中在区间 $\sigma, m + \sigma]$ 。包含索引可以定义为：
$Id_1(G_1, G_2) = \begin{cases} \frac{\sigma_1' + \sigma_2' - |m_1 - m_2|}{2\sigma_1'}, & \text{if } 0 \leq \sigma_1' + \sigma_2' - |m_1 - m_2| \leq 2\sigma_1' \\ 0, & \text{if } \sigma_1' + \sigma_2' - |m_1 - m_2| < 0 \\ 1, & \text{if } \sigma_1' + \sigma_2' - |m_1 - m_2| > 2\sigma_1' \end{cases}$
为了避免在计算 $id_1$ 时使用绝对值，可以用以下方式：
$Id_2(G_1, G_2) = \begin{cases} \frac{(\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2}{4(\sigma_1')^2}, & \text{if } 0 \leq (\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2 \leq 4(\sigma_1')^2 \\ 0, & \text{if } (\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2 < 0 \\ 1, & \text{if } (\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2 > 4(\sigma_1')^2 \end{cases}$
使用阶跃函数 ST 定义为：
$\begin{cases} 0, & \text{if } x < a \\ \frac{1}{2}, & \text{if } x = a \\ 1, & \text{if } x > a \end{cases}$
公式改为：
$Id_2(G_1, G_2) = \frac{(\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2}{4(\sigma_1')^2} ST\left((\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2\right)+ \frac{4(\sigma_1')^2 - (\sigma_1' + \sigma_2')^2 + (m_1 - m_2)^2}{4(\sigma_1')^2} ST\left((\sigma_1' + \sigma_2')^2 - (m_2 - m_2)^2 - 4(\sigma_1')^2\right)$
当第一组完全包含于第二组中时，以上形式的方程达到最大值。当第一组包含第二组时，下面的公式可以处理这种情况：
$Id_3(G_1, G_2) = \begin{cases} \frac{(\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2}{4(\sigma_1')^2}, & \text{for } (\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2 \geq 0 \\ 0,& \text{for } (\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2 < 0 \end{cases}$
或者使用阶跃函数的形式
$Id_3(G_1, G_2) = \frac{(\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2}{4(\sigma_1')^2} ST\left((\sigma_1' + \sigma_2')^2 - (m_1 - m_2)^2\right)$
通过这种方式获得的包含指数用于基于包含的模糊聚类方法。该算法是为每个类找到一个原型，使属于该类的高斯集合上的总体包含度最大化。问题转换为最大化目标函数(加了负号)：
$\sum_{i=1}^c \sum_{k=1}^N Id_3(G_k, G_{vi}) u_{ik}^m$
以上方程容易导致所有原型的分布（SD）趋向于其最大值。为了避免这种影响，可以使用以下公式：
$\sum_{i=1}^c \sum_{k=1}^N Id_3(G_k, G_{vi}) u_{ik}^m w+ \sum_{i=1}^c \sum_{k=1}^N (x_k - v_i)^T I (x_k - v_i) u_{ik}^m w > 0$
其中 $I$ 是单位矩阵， $w$ 是权重。

在这种形式中，方程表示最大化簇中心 $Gv_i$ 中每个元素的包含指数与最小化原型到这些元素的距离之间的平衡。该方程可用于实现划分矩阵 U 值的迭代过程。该算法将一直工作，直到该矩阵达到稳定值。

基于上下文的模糊聚类

Context-based clustering（Pedrycz，1996）的思想是通过应用上下文来搜索数据组。聚类的一般任务，表述为揭示数据 $X$ 中的结构，基于上下文的聚类被重新表述为揭示上下文 $A$ 中数据 $X$ 的结构，其中 $A$ 是感兴趣的信息颗粒（聚类的上下文）。

算法中使用聚类机制的条件方面（上下文敏感性），考虑条件变量（上下文），假设相应样本上的值 $f_1$ , $f_2，\dots, f_N$ 。换句话说， $f_k$ 是 $x_k$ 在所考虑的上下文中的参与度， $f_k = A(x_k)$ 。 $f_k$ 与 $x_k$ 对各个簇隶属度值（例如 $\mu_{1k}, \mu_{2k},..., \mu_{Ck}$ ）连接，如下式所示：
$\sum_{i=1}^c u_{ik} = f_k, \quad k = 1, 2, \dots, N$
所选上下文直接影响聚类结果。上下文 $A$ 的有限的支持没有考虑这些隶属值等于0的数据点。这意味着只有原始数据的某个子集可用于进一步聚类。考虑到这一事实，划分矩阵 $U$ 之前的定义
$\left\{ u_{ik} \in [0, 1] \, \Bigg| \, \sum_{i=1}^c u_{ik} = 1 \text{ and } 0 < \sum_{k=1}^N u_{ik} < N \forall i \right\}$
被修改为
$\left\{ u_{ik} \in [0, 1] \, \Bigg| \, \sum_{i=1}^c u_{ik} = f_k \, \forall k \text{ and } 0 < \sum_{k=1}^N u_{ik} < N \forall i \right\}$
整个基于上下文的模糊聚类算法可以概括为以下步骤：

聚类数 $C$ ，确定聚类终止条件 ε (ε > 0)、距离函数 $\mid\mid * \mid\mid$ ，模糊化参数 $m$ （默认 2），然后初始化划分矩阵 $U$ ，目标函数为： $\sum_{i=1}^{c} \sum_{k=1}^{N}\mu_{ik}^m d_{ik}^2$
使用标准 FCM 算法计算簇中心
$v_i = \frac{\sum_{k=1}^{N}\mu_{ik}^m x_k}{\sum_{k=1}^{N}\mu_{ik}^m}$
更新分区矩阵
$\mu_{ik} = \frac{f_k}{\sum_{j=1}^{c}(\frac{d_{ik}}{d_{ik}})^{\frac{2}{m-1}}}$
其中， $1,2,\dots,c$ ， $1,2,\dots,N$ .
比较 $U_{old}$ 和 $U_{new}$ 。如果 $\mid U_{new}-U_{old}\mid \leq ε$ ，则停止聚类（这里也可以设置更新前后的目标函数差小于一个常数 $\delta$ ）。否则返回步骤2，并设置 $U_{new}$ 等于 $U_{old}$ 继续迭代计算。