最大信息系数——检测变量之间非线性相关性

最新推荐文章于 2024-10-28 17:48:08 发布

djph26741

最新推荐文章于 2024-10-28 17:48:08 发布

阅读量3.1k

点赞数 1

文章标签： python

原文链接：http://www.cnblogs.com/bonelee/p/8651719.html

版权

最大信息系数（MIC）是一种用于检测连续型数据中变量间非线性相关性的方法，由2011年提出。通过信息论中的熵、互信息和KL散度等概念，MIC能够识别复杂的关系。文章介绍了熵和互信息的基本概念，并解释了如何通过分箱算法处理连续数据。MIC值域在0到1之间，值越大表示相关性越强，适用于各种线性和非线性关系的分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://blog.csdn.net/qtlyx/article/details/50780400

最后的效果就是这样的。很明显可以看到，左下角那个有点像三角函数的关系，Pearson系数(就是线性相关系数)为0，而MIC则有0.8。

摘自：http://tech.ifeng.com/a/20180323/44917506_0.shtml

最大信息系数

最大信息系数（MIC）于 2011 年提出，它是用于检测变量之间非线性相关性的最新方法。用于进行 MIC 计算的算法将信息论和概率的概念应用于连续型数据。

深入细节

由克劳德·香农于 20 世纪中叶开创的信息论是数学中一个引人注目的领域。

信息论中的一个关键概念是熵——这是一个衡量给定概率分布的不确定性的度量。概率分布描述了与特定事件相关的一系列给定结果的概率。

概率分布的熵是「每个可能结果的概率乘以其对数后的和」的负值

为了理解其工作原理，让我们比较下面两个概率分布：

X 轴标明了可能的结果；Y 轴标明了它们各自的概率

左侧是一个常规六面骰子结果的概率分布；而右边的六面骰子不那么均匀。

从直觉上来说，你认为哪个的熵更高呢？哪个骰子结果的不确定性更大？让我们来计算它们的熵，看看答案是什么。

entropy <- function(x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。