南瓜书公式详解----第九章 (聚类，高斯混合聚类）-CSDN博客

本文链接：https://blog.csdn.net/dengkeaway/article/details/141593210

聚类评价

式9-1 交并比（Jaccard系数）

$\mathrm{JC}=\frac{a}{a+b+c}$
这个公式是杰卡德相似系数（Jaccard Similarity Coefficient，简称 JC）的表达式，这是一种用于度量两个集合相似度的统计量。下面是对这个公式的详细解释：

杰卡德相似系数 $\mathrm{JC}$ ：
- 这是一个介于 0 到 1 之间的值，用于衡量两个集合的相似度。值越接近 1，表示两个集合越相似；值越接近 0，表示两个集合越不相似。
集合的交集大小 $a$ ：
- $a$ 是两个集合 $A$ 和 $B$ 的交集的大小，即 $\cap B$ 中元素的数量。
集合的并集大小 $a + b + c$ ：
- 这里 $b$ 是集合 $A$ 中但不在 $B$ 中的元素数量， $c$ 是集合 $B$ 中但不在 $A$ 中的元素数量。并集大小 $a + b + c$ 表示两个集合中所有不重复元素的总数。
公式的含义：
- 公式 $\mathrm{JC} = \frac{a}{a+b+c}$ 表示两个集合的交集大小与它们并集大小的比例。这个比例越高，表示两个集合的相似度越高。
应用场景：
- 杰卡德相似系数在多个领域都有应用，包括文本分析、生物多样性研究、计算机视觉等。它特别适用于度量集合的相似度，尤其是在集合元素是二元（存在或不存在）的情况下。
计算示例：
- 假设集合 $A = \{1, 2, 3\}$ 和集合 $B = \{2, 3, 4\}$ ，它们的交集 $\cap B = \{2, 3\}$ ，交集大小 $a = 2$ 。集合 $A$ 和 $B$ 的并集 $\cup B = \{1, 2, 3, 4\}$ ，不重复元素总数 $a + b + c = 4$ 。因此，杰卡德相似系数 $\mathrm{JC} = \frac{2}{4} = 0.5$ 。

杰卡德相似系数提供了一种简单而有效的方法来衡量两个集合的相似性。

9.6 (F指数）

$\mathrm{FMI}=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$
公式是F指数（Fowlkes-Mallows Index，简称FMI）的表达式，这是一种用于度量两个集合相似度的统计量，特别适用于聚类分析。下面是对这个公式的详细解释：

F指数 $\mathrm{FMI}$ ：
- 表示为 $\mathrm{FMI}$ ，是一个介于 0 和 1 之间的值，用于衡量两个集合 $A$ 和 $B$ 的相似度。
交集元素数量 $a$ ：
- $a$ 是集合 $A$ 和 $B$ 的交集的大小，即 $\cap B$ 中元素的数量。
集合 $A$ 的独有元素数量 $b$ ：
- $b$ 是集合 $A$ 中但不在 $B$ 中的元素数量。
集合 $B$ 的独有元素数量 $c$ ：
- $c$ 是集合 $B$ 中但不在 $A$ 中的元素数量。
公式的含义：
- 公式 $\mathrm{FMI} = \sqrt{\frac{a}{a+b} \cdot \frac{a}{a+c}}$ 表示两个集合的交集与各自独有元素数量的比值的几何平均。这个比值越高，表示两个集合的相似度越高。
应用场景：
- F指数常用于聚类分析中，用于评估聚类结果的质量。它考虑了集合的交集大小以及各自独有元素的数量，因此能够更全面地反映集合的相似度。
计算示例：
- 假设集合 $A = \{1, 2, 3\}$ 和集合 $B = \{2, 3, 4\}$ ，它们的交集 $\cap B = \{2, 3\}$ ，交集大小 $a = 2$ 。集合 $A$ 的独有元素数量 $b = 1$ （元素 1），集合 $B$ 的独有元素数量 $c = 1$ （元素 4）。因此，F指数 $\mathrm{FMI} = \sqrt{\frac{2}{2+1} \cdot \frac{2}{2+1}} = \sqrt{\frac{2}{3} \cdot \frac{2}{3}} = \sqrt{\frac{4}{9}} = \frac{2}{3} \approx 0.67$ 。

F指数提供了一种考虑集合交集和独有元素数量的方法来衡量集合的相似性，特别适用于需要平衡考虑集合内部相似度和外部差异度的情况。

9.7 (雷文斯坦指数）

$\mathrm{RI}=\frac{2(a+d)}{m(m-1)}$
公式是雷文斯坦指数（Ravenstein’s Index），也称为雷文斯坦同源指数（Ravenstein’s Index of Consanguinity），这是一种用于度量两个分类或分组相似度的统计量。它通常用于生态学、地理学和人口统计学等领域，尤其是在分析不同地区或时间点的人口迁移模式时。下面是对这个公式的详细解释：

雷文斯坦指数 $\mathrm{RI}$ ：
- 表示为 $\mathrm{RI}$ ，是一个用于衡量两个分类或分组相似度的指标。
共同元素数量 $a$ ：
- $a$ 是两个分类或分组共有的元素数量。
不同元素数量 $d$ ：
- $d$ 是两个分类或分组中不共有的元素数量。
总元素数量 $m$ ：
- $m$ 是两个分类或分组中所有元素的总数。
公式的含义：
- 公式 $\mathrm{RI} = \frac{2(a+d)}{m(m-1)}$ 表示两个分类或分组的相似度，通过计算共有和不同元素的数量与总元素数量的比值来衡量。
应用场景：
- 雷文斯坦指数常用于比较不同时间点或地区的人口迁移模式，以评估人口结构的变化。
计算示例：
- 假设两个地区在第一次调查时共有 $a = 100$ 个相同的人口特征，在第二次调查时共有 $d = 50$ 个不同的人口特征。如果两次调查的总人数为 $m = 300$ ，则 $\mathrm{RI} = \frac{2(100+50)}{300(300-1)} = \frac{300}{89900} \approx 0.0033$ 。

雷文斯坦指数提供了一种衡量分类或分组相似度的方法，它考虑了共有和不同元素的数量，从而能够反映两个分类或分组的整体相似性。

9.8 簇内距离定义

$\operatorname{avg}(C)=\frac{2}{|C|(|C|-1)} \sum_{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$
公式是计算集合 $C$ 中所有点对之间距离的平均值的公式，这是一种在数据集中衡量点的分布情况的常用方法。下面是对这个公式的详细解释：

平均距离 $\operatorname{avg}(C)$ ：
- 表示为 $\operatorname{avg}(C)$ ，是集合 $C$ 中所有点对之间距离的平均值。
集合 $C$ 的大小 $∣ C ∣$ ：
- $∣ C ∣$ 是集合 $C$ 中元素（点）的总数。
点对 $\boldsymbol{x}_{i}$ 和 $\boldsymbol{x}_{j}$ ：
- 表示集合 $C$ 中任意两个不同的点。
距离函数 $\operatorname{dist}(\boldsymbol{x}_{i}, \boldsymbol{x}_{j})$ ：
- 表示计算两个点 $\boldsymbol{x}_{i}$ 和 $\boldsymbol{x}_{j}$ 之间的距离。这可以是欧几里得距离、曼哈顿距离或其他任何定义的距离度量。
求和符号 $\sum$ ：
- 表示对所有可能的点对 $(\boldsymbol{x}_{i}, \boldsymbol{x}_{j})$ 进行求和。由于 $i < j$ ，这避免了重复计算点对。
公式的含义：
- 公式 $\operatorname{avg}(C) = \frac{2}{|C|(|C|-1)} \sum_{1 \leqslant i < j \leqslant |C|} \operatorname{dist}(\boldsymbol{x}_{i}, \boldsymbol{x}_{j})$ 表示集合 $C$ 中所有不重复点对之间的距离总和，除以可能的点对数量（ $∣ C ∣ (∣ C ∣ - 1) /2$ ），从而得到平均距离。
应用场景：
- 这种平均距离的计算方法常用于评估数据点的分布密度或聚类分析中的簇内紧密度。
计算示例：
- 假设集合 $C$ 包含 3 个点 $\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \boldsymbol{x}_{3}$ ，如果它们之间的距离分别是 $d(\boldsymbol{x}_{1}, \boldsymbol{x}_{2}) = 5$ ， $d(\boldsymbol{x}_{1}, \boldsymbol{x}_{3}) = 7$ 和 $d(\boldsymbol{x}_{2}, \boldsymbol{x}_{3}) = 6$ ，则平均距离 $\operatorname{avg}(C)$ 为：
  $\operatorname{avg}(C) = \frac{2}{3 \times (3-1)} (5 + 7 + 6) = \frac{2}{6} \times 18 = \frac{36}{6} = 6$

这个公式提供了一种衡量集合中点的相对分布情况的方法，特别适用于需要分析点的集聚或分散程度的场景。

高斯混合聚类处理方法-1 EM算法

9.33 (E步）

$\sum_{j=1}^{m} \frac{\alpha_{i} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}{\sum_{l=1}^{k} \alpha_{l} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{l}, \boldsymbol{\Sigma}_{l}\right)}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)=0$
公式是高斯混合模型（Gaussian Mixture Model, GMM）中的一种期望最大化（Expectation-Maximization, EM）算法的更新公式。这个公式用于在EM算法的E步骤中计算每个数据点 $\boldsymbol{x}_{j}$ 对每个高斯成分 $i$ 的权重（或责任）。下面是对这个公式的详细解释：

求和符号 $\sum_{j=1}^{m}$ ：
- 表示对所有数据点 $\boldsymbol{x}_{j}$ 进行求和，其中 $m$ 是数据点的总数。
权重 $\alpha_{i}$ ：
- $\alpha_{i}$ 是第 $i$ 个高斯成分的权重，它表示该成分在整个混合模型中的相对重要性。
条件概率密度 $p(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i})$ ：
- 这是给定均值 $\boldsymbol{\mu}_{i}$ 和协方差矩阵 $\boldsymbol{\Sigma}_{i}$ 的第 $i$ 个高斯分布下，数据点 $\boldsymbol{x}_{j}$ 的条件概率密度。
归一化因子：
- 分母 $\sum_{l=1}^{k} \alpha_{l} \cdot p(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{l}, \boldsymbol{\Sigma}_{l})$ 是一个归一化因子，确保所有成分对数据点 $\boldsymbol{x}_{j}$ 的权重之和为 1。
数据点与均值的差 $\boldsymbol{x}_{j} - \boldsymbol{\mu}_{i}$ ：
- 表示数据点 $\boldsymbol{x}_{j}$ 与第 $i$ 个高斯成分的均值 $\boldsymbol{\mu}_{i}$ 之间的差异。
公式的含义：
- 这个公式实际上是在计算每个数据点对每个高斯成分的“责任”，即该成分对数据点的拟合程度。在EM算法中，这个值用于更新高斯成分的参数（均值、协方差和权重）。
更新条件：
- 公式等于 0 表示找到了最优解，即数据点 $\boldsymbol{x}_{j}$ 在所有高斯成分上的责任加权平均等于数据点本身。这是EM算法中求解高斯混合模型参数的一个条件。
应用场景：
- 这个公式是高斯混合模型中EM算法的一部分，用于聚类分析、概率建模和模式识别等领域。
计算示例：
- 假设我们有一个数据集，包含若干个数据点，以及一个由多个高斯成分组成的混合模型。我们可以通过这个公式计算每个数据点对每个高斯成分的责任，然后使用这些责任来更新高斯成分的参数。

这个公式是高斯混合模型参数估计的关键步骤之一，通过迭代优化来提高模型对数据的拟合度。

9.34 (M步，计算 $\mu$ )

$\mu_{i}=\frac{\sum_{j=1}^{m} \gamma_{j i} \boldsymbol{x}_{j}}{\sum_{j=1}^{m} \gamma_{j i}}$

公式是高斯混合模型（Gaussian Mixture Model, GMM）中计算每个高斯成分的均值 $\mu_{i}$ 的公式。这个公式通常在EM算法的M步骤中使用，用于更新每个高斯成分的参数。下面是对这个公式的详细解释：

均值 $\mu_{i}$ ：
- 表示第 $i$ 个高斯成分的均值向量。
数据点 $\boldsymbol{x}_{j}$ ：
- 表示数据集中的第 $j$ 个数据点。
权重 $\gamma_{j i}$ ：
- 表示第 $j$ 个数据点属于第 $i$ 个高斯成分的权重，也称为责任（responsibility）。这些权重在EM算法的E步骤中计算得出。
求和符号 $\sum_{j=1}^{m}$ ：
- 表示对所有数据点 $\boldsymbol{x}_{j}$ 进行求和，其中 $m$ 是数据点的总数。
公式的含义：
- 公式 $\mu_{i} = \frac{\sum_{j=1}^{m} \gamma_{j i} \boldsymbol{x}_{j}}{\sum_{j=1}^{m} \gamma_{j i}}$ 表示第 $i$ 个高斯成分的均值是通过所有数据点乘以其对应权重的和，除以权重的和来计算的。
应用场景：
- 这个公式用于高斯混合模型的参数更新，特别是在聚类分析、概率建模和模式识别等领域。
计算示例：
- 假设我们有一个包含3个数据点的数据集，并且我们正在更新第1个高斯成分的均值。如果我们有权重 $\gamma_{1i}, \gamma_{2i}, \gamma_{3i}$ 对应于这3个数据点，那么均值 $\mu_{i}$ 的计算将是：
  $\mu_{i} = \frac{\gamma_{1i} \boldsymbol{x}_{1} + \gamma_{2i} \boldsymbol{x}_{2} + \gamma_{3i} \boldsymbol{x}_{3}}{\gamma_{1i} + \gamma_{2i} + \gamma_{3i}}$
更新条件：
- 这个公式确保了均值 $\mu_{i}$ 是根据数据点对每个高斯成分的“责任”加权平均得到的。

这个公式是高斯混合模型中参数估计的关键步骤之一，通过迭代优化来提高模型对数据的拟合度。

9.35 (M步，计算 $\sigma$ )

$\mathbf\Sigma_{i}=\cfrac{\sum_{j=1}^m\gamma_{ji}(\boldsymbol x_{j}-\boldsymbol \mu_{i})(\boldsymbol x_{j}-\boldsymbol\mu_{i})^T}{\sum_{j=1}^m\gamma_{ji}}$
公式是高斯混合模型（Gaussian Mixture Model, GMM）中计算每个高斯成分的协方差矩阵 $\mathbf{\Sigma}_{i}$ 的公式。这个公式通常在EM算法的M步骤中使用，用于更新每个高斯成分的协方差矩阵。下面是对这个公式的详细解释：

协方差矩阵 $\mathbf{\Sigma}_{i}$ ：
- 表示第 $i$ 个高斯成分的协方差矩阵，它描述了该成分中数据点的分布情况。
数据点 $\boldsymbol{x}_{j}$ ：
- 表示数据集中的第 $j$ 个数据点。
均值 $\boldsymbol{\mu}_{i}$ ：
- 表示第 $i$ 个高斯成分的均值向量。
权重 $\gamma_{ji}$ ：
- 表示第 $j$ 个数据点属于第 $i$ 个高斯成分的权重，也称为责任（responsibility）。这些权重在EM算法的E步骤中计算得出。
求和符号 $\sum_{j=1}^{m}$ ：
- 表示对所有数据点 $\boldsymbol{x}_{j}$ 进行求和，其中 $m$ 是数据点的总数。
公式的含义：
- 公式 $\mathbf{\Sigma}_{i} = \frac{\sum_{j=1}^{m} \gamma_{ji} (\boldsymbol{x}_{j} - \boldsymbol{\mu}_{i}) (\boldsymbol{x}_{j} - \boldsymbol{\mu}_{i})^T}{\sum_{j=1}^{m} \gamma_{ji}}$ 表示第 $i$ 个高斯成分的协方差矩阵是通过所有数据点与该成分均值的差值的加权和，除以权重的和来计算的。
应用场景：
- 这个公式用于高斯混合模型的参数更新，特别是在聚类分析、概率建模和模式识别等领域。
计算示例：
- 假设我们有一个包含3个数据点的数据集，并且我们正在更新第1个高斯成分的协方差矩阵。如果我们有权重 $\gamma_{1i}, \gamma_{2i}, \gamma_{3i}$ 对应于这3个数据点，那么协方差矩阵 $\mathbf{\Sigma}_{i}$ 的计算将是：
  $\mathbf{\Sigma}_{i} = \frac{\gamma_{1i} (\boldsymbol{x}_{1} - \boldsymbol{\mu}_{i})(\boldsymbol{x}_{1} - \boldsymbol{\mu}_{i})^T + \gamma_{2i} (\boldsymbol{x}_{2} - \boldsymbol{\mu}_{i})(\boldsymbol{x}_{2} - \boldsymbol{\mu}_{i})^T + \gamma_{3i} (\boldsymbol{x}_{3} - \boldsymbol{\mu}_{i})(\boldsymbol{x}_{3} - \boldsymbol{\mu}_{i})^T}{\gamma_{1i} + \gamma_{2i} + \gamma_{3i}}$
更新条件：
- 这个公式确保了协方差矩阵 $\mathbf{\Sigma}_{i}$ 是根据数据点对每个高斯成分的“责任”加权平均得到的。

这个公式是高斯混合模型中参数估计的关键步骤之一，通过迭代优化来提高模型对数据的拟合度。

9.38 (权重计算）

$\alpha_{i}=\frac{1}{m}\sum_{j=1}^m\gamma_{ji}$
公式是用于计算高斯混合模型（Gaussian Mixture Model, GMM）中每个高斯成分的权重 $\alpha_{i}$ 的公式。这个权重代表了第 $i$ 个高斯分布在整个混合模型中所占的比例。以下是对这个公式的详细解释：

权重 $\alpha_{i}$ ：
- 表示第 $i$ 个高斯成分的权重，其值介于 0 和 1 之间，并且所有权重的总和为 1。
数据点数量 $m$ ：
- 表示数据集中数据点的总数。
权重 $\gamma_{ji}$ ：
- 表示第 $j$ 个数据点属于第 $i$ 个高斯成分的权重，也称为责任（responsibility）。这些权重在EM算法的E步骤中计算得出。
求和符号 $\sum_{j=1}^{m}$ ：
- 表示对所有数据点 $\boldsymbol{x}_{j}$ 进行求和。
公式的含义：
- 公式 $\alpha_{i} = \frac{1}{m} \sum_{j=1}^{m} \gamma_{ji}$ 表示第 $i$ 个高斯成分的权重是所有数据点对该成分的责任的加权平均值，除以数据点的总数 (m)。
应用场景：
- 这个公式用于高斯混合模型的参数更新，特别是在聚类分析、概率建模和模式识别等领域。
计算示例：
- 假设我们有一个包含3个数据点的数据集，并且我们正在计算第1个高斯成分的权重。如果我们有权重 $\gamma_{1i}, \gamma_{2i}, \gamma_{3i}$ 对应于这3个数据点，那么权重 $\alpha_{i}$ 的计算将是：
  $\alpha_{i} = \frac{1}{3} (\gamma_{1i} + \gamma_{2i} + \gamma_{3i})$
更新条件：
- 这个公式确保了每个高斯成分的权重 $\alpha_{i}$ 是根据数据点对该成分的“责任”来计算的，并且所有权重的总和为 1。