聚类外部指标 Mirkin指数（Rand指数变换）

最新推荐文章于 2023-12-29 01:22:48 发布

纵深

最新推荐文章于 2023-12-29 01:22:48 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：聚类机器学习聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42364307/article/details/111348438

版权

机器学习专栏收录该内容

9 篇文章 5 订阅

订阅专栏

聚类常用的外部指标有很多如Jaccard系数，FM指数，Rand指数，DB指数，Dunn指数。
因为在阅读文献中发现了Mirkin指数，看了一下网上没有写很详细的，故这里介绍Mirkin指数。

前期工作

对于数据集 $D={x_{1},x_{2},...,x_{m}}$ ，假定通过聚类给出的簇划分为 $C={C_{1},C_{2},...,C_{k}}$ ，参考模型（如果用于一致性聚类，这里是另一个聚类即可）给出的簇划分为 $C^{*}={C^{*}_{1},C^{*}_{2},...,C^{*}_{s}}$ （注意k不一定等于s），我们令 $\lambda$ 与 $\lambda^{*}$ 分别表示表示 $C$ 与 $C^{*}$ 对应的簇标记向量，将样本两两配对，定义如下
$a={(x_{i},x_{j}|\lambda_{i}=\lambda_{j},\lambda^{*}_{i}=\lambda^{*}_{j},i<j)}$
$b={(x_{i},x_{j}|\lambda_{i}=\lambda_{j},\lambda^{*}_{i}\neq\lambda^{*}_{j},i<j)}$
$c={(x_{i},x_{j}|\lambda_{i}\neq\lambda_{j},\lambda^{*}_{i}=\lambda^{*}_{j},i<j)}$
$d={(x_{i},x_{j}|\lambda_{i}\neq\lambda_{j},\lambda^{*}_{i}\neq\lambda^{*}_{j},i<j)}$
如上式，其中 $a$ 表示 $C$ 中隶属于相同簇且在与 $C^{*}$ 也隶属于相同簇的样本对，其中 $b$ 表示 $C$ 中隶属于相同簇且在与 $C^{*}$ 也隶属于不同簇的样本对…
易知
$a + b + c + d = m (m - 1) / 2$
证明
已知每个样本对在 $a, b, c, d$ 必出现一次，且有且仅出现一次，则有
$a + b + c + d = (m - 1) + (m - 2) + . . . + 1 = m (m - 1) / 2$

Mirkin指数

$M K = (b + c) / (a + b + c + d) = 2 (b + c) / (m * (m - 1))$

Rand指数

$M K = (a + d) / (a + b + c + d) = 2 (a + d) / (m * (m - 1))$

其他指数

Jaccard系数
$J C = a / (a + b + c)$
FM指数
$FMI=\sqrt{a^{2}/((a+b)(a+c))}$

参考文献

周志华《机器学习》，清华大学出版社

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

纵深 CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

52万+: 周排名

44万+: 总排名

14万+: 访问

: 等级

767: 积分

169: 粉丝

246: 获赞

48: 评论

1463: 收藏

私信

关注

热门文章

分类专栏

最新评论

《Python编程从入门到实践》习题答案及重点
qslife: 以上版本在第一个 for 循环 for new_user in new_users: 中新建了空白列表 current_users_1 。第一个 for 循环 for new_user in new_users: 需要运行5次，每次都要新建空白列表 current_users_1 。增加了程序运行的时间，降低了效率。应该把新建空白列表 current_users_1 的步骤提前到第一 for 循环 for new_user in new_users: 之前，这样整个程序的运行期间只建立一次列表 current_users_1 ，可以提高程序的运行效率。修改如下： #《Python编程从入门到实践》，动手试一试，5-10检查用户名，答案。2023-07-15,by qs。 current_users = ['AaA','bBb','CcC','DdD','EeE'] new_users = ['AAA','bbb','abc','def','hij'] current_users_1 = [] for current_user in current_users: current_users_1.append(current_user.lower()) for new_user in new_users: if new_user.lower() in current_users_1: print(new_user + '已经被占用，不能注册。') else: print(new_user + '可以注册。')
《Python编程从入门到实践》习题答案及重点
qslife: 本书学到这个位置还没有教过 break 语句，能不用 break 语句完成这个例子真完美呀，感谢分享。
《Python编程从入门到实践》习题答案及重点
qslife: 引用「# 5-10 current_users=['a1','A2','a3','D4','a5'] ne」 5-10，楼主写的很好。感谢楼主分享。本书学到这个位置还没有教过 break 语句，如果能不用 break 语句完成就更完美了。
《Python编程从入门到实践》习题答案及重点
-Even-: #5-10 我是这样做的 [code=python] current_users=['A1','A2','a3','d4','a5'] new_users=['A1','a2','c3','d4','E5'] for user in new_users: current = [] for c in current_users: current.append(c.lower()) if user.lower() in current: print(user+'已被使用') if user.lower() not in current: print(user+'未被使用') [/code]
《Python编程从入门到实践》习题答案及重点
ug000001: 大家注意一下，这所有的项目都是纵深大神自己写的，可作为不知道习题怎么写的时候借鉴的参考答案，并不是官方的直接答案哦。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。