聚类效果评价——Davies-Bouldin（DB指标）——内部评估标准（3）

最新推荐文章于 2023-08-05 14:53:14 发布

呆萌的代Ma

最新推荐文章于 2023-08-05 14:53:14 发布

阅读量6.3k

点赞数 4

分类专栏：数据分析文章标签：聚类

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/117550130

版权

数据分析专栏收录该内容

14 篇文章

订阅专栏

博客介绍了用于评估聚类效果的DB指标。该指标越小，聚类效果越好，最小值为0。文中给出了DB指标的计算公式，先计算Rij，再取最大的Rij得到DB指标值，还提及了代码实现部分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Davies, David L., and Donald W. Bouldin. “A cluster separation measure.” IEEE transactions on pattern analysis and machine intelligence 2 (1979): 224-227.

公式与简介

指标越小表明聚类效果越好，最小值为0

首先计算： $R_{ij} = \frac{s_i + s_j}{d_{ij}}$

其中 $s_i$ 表示这个类的直径； $d_{ij}$ 表示类 $i$ 与 $j$ 的质心(centroids)之间的距离

然后取最大的 $R_{ij}$ 即可得到DB指标值： $\frac{1}{k} \sum_{i=1}^k \max_{i \neq j} R_{ij}$

代码实现

import pandas as pd
import numpy as np
from sklearn import metrics
from sklearn.cluster import KMeans

dataframe = pd.DataFrame(data=np.random.randint(0, 50, size=(200, 10)))
# 以kmeans聚类方法为例
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(dataframe)
labels = kmeans_model.labels_
# 计算指标
score = metrics.davies_bouldin_score(dataframe, labels)
print(score)