ARI(Adjusted Rand Index)
调整兰德指数,用于度量聚类结果与真实类别之间的相似度。它考虑了随机分配的影响,值越大表示聚类结果与真实类别越相似。ARI的取值范围为-1到1,值越大表示聚类结果越好.
计算公式:
ARI = (sum_ij(C(n_ij, 2)) - [sum_i(C(a_i, 2)) * sum_j(C(b_j, 2)) / C(n, 2)]) / (1/2 * [sum_i(C(a_i, 2)) + sum_j(C(b_j, 2))] - [sum_i(C(a_i, 2)) * sum_j(C(b_j, 2)) / C(n, 2)])
其中,C(n, k)
表示组合数,即从n
个元素中选取k
个元素的组合数。
其中,n_{ij}
表示聚类结果中第 i
类与真实类别中第 j
类共同包含的样本数量,a_i
表示聚类结果中第 i
类的样本数量,b_j
表示真实类别中第 j
类的样本数量,n
表示总样本数。
实例:
样本序列 | 真实类别 | 聚类结果 |
---|---|---|
1 | A | A |
2 | A | C |
3 | A | C |
4 | B | C |
5 | B | B |
6 | B | C |
7 | C | B |
8 | C | B |
9 | C | C |
计算聚类结果中相同类别和不同类别的样本数量
- 如果两个样本属于同一真实类别,同时也属于同一聚类结果,那么它们就是一个共现项,对应的共现矩阵中该项的值加1。
- 如果两个样本属于同一真实类别,但属于不同的聚类结果,那么它们也是一个共现项,对应的共现矩阵中该项的值加1。
- 如果两个样本属于不同的真实类别,但属于同一聚类结果,那么它们也是一个共现项,对应的共现矩阵中该项的值加1。
- 如果两个样本属于不同的真实类别,且属于不同的聚类结果,那么它们不是一个共现项,对应的共现矩阵中该项的值不变。
A | B | C | |
---|---|---|---|
A | 1 | 0 | 2 |
B | 0 | 1 | 2 |
C | 0 | 2 | 1 |