利用互信息比较不同的聚类结果

最新推荐文章于 2023-08-05 14:53:14 发布

tyh70537

最新推荐文章于 2023-08-05 14:53:14 发布

阅读量5.5k

点赞数 2

分类专栏：有效性检验文章标签： mutual-inf 互信息聚类比较

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tyh70537/article/details/77145843

版权

有效性检验专栏收录该内容

4 篇文章 0 订阅

订阅专栏

互信息（mutual information）和信息熵（information entropy）一样都是信息论里面的概念。信息熵在决策树里面用的比较多，可以度量样本集合的纯度。而互信息在聚类中有很大的作用，它可以衡量对同一个数据集不同的划分的之间的相似程度。

假设 $P^a，P^b$ 表示数据集 $X$ 上的两个不同的划分， $X$ 包括n的样本。

$P^a$ 包含 $k_a$ 个簇， $P^a$ = { $C_1^a,C_2^a,\cdots,C_{k_a}^a$ }。

$P^b$ 包含 $k_b$ 个簇， $P^b$ = { $C_1^b,C_2^b,\cdots,C_{k_b}^b$ }。

$n_{ij}^{ab}$ 表示 $C_i^a$ 和 $C_j^b$ 中相同样本的个数。

$n_i^a$ 表示 $C_i^a$ 中样本的个数， $n_j^b$ 表示 $C_j^b$ 中样本的个数。

$P^a，P^b$ 的互信息为 $I(P^a，P^b)$ :

I (P a ， P b) = \sum i = 1 k a \sum j = 1 k b n a b i j n log (n a b i j n n a i n * n b j n)

$I(P^a，P^b)=\sum_{i=1}^{k_a}\sum_{j=1}^{k_b}\frac{n_{ij}^{ab}}{n}\log\bigg(\frac{\frac{n_{ij}^{ab}}{n}}{\frac{n_i^a}{n}*\frac{n_j^b}{n}}\bigg)$

接下来还要对 $I(P^a，P^b)$ 进行标准化，使 $I(P^a，P^b)$ 的值域为 $[0,1]$
标准化的互信息用 $NMI$ 表示：

N M I (P a, P b) = I ( P a , P b ) H ( P a ) * H ( P b ) - - - - - - - - - - - - \sqrt

$NMI(P^a,P^b)=\frac{I(P^a,P^b)}{\sqrt{H(P^a)*H(P^b)}}$
其中

H(Pa),H(Pb) $H(P^a),H(P^b)$ 分别表示

Pa,Pb $P^a,P^b$ 的信息熵

NMI(Pa,Pb) $NMI(P^a,P^b)$ 的值介于0到1之间，当划分

Pa,Pb $P^a,P^b$ 只有很小的差别时，

NMI(Pa,Pb) $NMI(P^a,P^b)$ 趋近于1，反之趋近于0。

如果我们通过先验信息，知道了真正的划分 $P^*$ ，那么就可以用 $NMI(P^a，P^*)$ 来检验划分 $P^a$ 是否合理。

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tyh70537 CSDN认证博客专家 CSDN认证企业博客

码龄9年

19: 原创

13万+: 周排名

230万+: 总排名

15万+: 访问

: 等级

1328: 积分

35: 粉丝

98: 获赞

55: 评论

382: 收藏

私信

关注

热门文章

分类专栏

最新评论

单连接算法与全连接算法
Panda@PKU: 图例非常清楚！终于把全连接算法搞明白了
单连接算法与全连接算法
Panda@PKU: G(3): 虽然2和5相连，但2，3，5并没有构成一个最大完全子图，所以G(3)阶段没有新簇产生。没有新簇，在树状图中也就不能优先相连，这是全连接特点。单连接算法的话，23就会先跟5连
通用对抗样本 Universal Adversarial Example
yz694229541: 论文里算法终止条件是目标模型的准确率低于1 − δ ，下面代码里哪里体现了这一终止条件？
k-modes聚类算法介绍
tyh70537: 男女，是否，头发根数
k-modes聚类算法介绍
爱学控制的猫: 什么是离散属性的数据集？举个例子

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。