最大互信息系数-MIC

最新推荐文章于 2024-03-17 20:36:56 发布

BigBoboboy

最新推荐文章于 2024-03-17 20:36:56 发布

阅读量773

点赞数

分类专栏：机器学习信息论文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/san_pi_sama/article/details/129741514

版权

机器学习同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

最大互信息系数-MIC

（一）信息熵

不确定性越大，熵越大。 $0.5 \times 0.5) > (0.7 \times 0.3) > (1 \times 0)$

$\begin{align*} H(X)&=-\sum_{x\in X} p(x)\log{p(x)}\\ H(Y|X)&=\sum_{x\in X}p(x)H(Y|X=x)\\ &=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y|x)\log{p(y|x)}\\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log{p(y|x)} \end{align*}$

（二）互信息（Mutual Information）

互信息是变量间相互依赖性的量度。
网格图

描述：知道随机变量Y，对随机变量X的不确定性减少的程度。
$\begin{align*} &离散:I(X;Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}\\ &连续:I(X;Y)=\int_X\int_{Y}~p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}~dxdy \end{align*}$
特性：非负 and 对称。

（三）最大互信息系数（Max Information Coefficient）

MIC用来衡量两个特征变量之间的关联程度，相较于MI互信息而言有更高的准确度。

公式：

$mic(X;Y)=\max_{a*b<B}{\frac{I(X;Y)}{\log{\min(a,b)}}}$

思想：
- 网格划分二维散点图，以各方格点落入概率拟合联合分布 $p (x, y)$ ，从而解决互信息中的联合概率难求的问题。
- 即我们的任务，是寻找使得互信息计算值大，且最好拟合 $(X; Y)$ 分布的网格划分，即系数。
- $\log\min(a,b)$ 是标准化尺度，消除网格划分形式不同带来的关联性度量干扰。我的理解大概就是下图这样，一般划分成图2就可以很好拟合分布了，划分成图3这样每个点一个格就有点没必要了。

网格图

(该的图3可能还不是很明显，大家可以想象一下有无数点，你把他每个点独成一格，当然最接近真实分布但没必要，也捕获不到想要的分布关联信息)

补充：有一种说法是，MIC比较适合于数据充足的大数据任务。其实感觉也很好理解，样本散点图其实也是对于真实世界分布的一种拟合，点越多包含的分布信息就更精确。可以思考用 $(1, 10, 1000, 100000, ...)$ 个点来表示 $sin{x}$ 函数。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
最大互信息系数-MIC

不确定性越大，熵越大。
复制链接

扫一扫

专栏目录

博客等级

码龄4年

8
原创

24
点赞

134
收藏

13
粉丝

关注

私信

热门文章

分类专栏

信息论 1篇
机器学习 6篇
数据挖掘 5篇
笔记 5篇

最新评论

决策树后剪枝算法（一）代价复杂度剪枝CPP
weixin_42160355: 谢谢大佬TAT
决策树后剪枝算法（三）悲观错误剪枝PEP
BigBoboboy: 都可以吧，加:就是允许剪后可以比剪前错误率高一点点(标准差范围内)。减:就是严格一定要错误率降低才行。我个人偏向于加，也就是错误率降低不多情况下，降低模型复杂度，追求泛化。
决策树后剪枝算法（三）悲观错误剪枝PEP
三月七꧁ ꧂: 你好，剪枝判断标准中到底是加标准差还是减标准差，为什么有的博主是加有的是减
决策树后剪枝算法（四）最小错误剪枝MEP
Dragon水魅: 讲的很清楚，有一个点可能要说明一下，要追求实现效果的话，m的值应该还是求解得到，求解到的m使得预测误差率最小，才符合标题中的“最小错误”
决策树后剪枝算法（三）悲观错误剪枝PEP
BigBoboboy: 没错哈，因为子树会有很多个叶子节点，所以要求和。抱歉最近一段忙，回复晚了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。