特征选取之最大信息系数（MIC）

chuanye9781

于 2017-08-23 16:08:00 发布

阅读量3.7k

点赞数

文章标签： matlab python

原文链接：https://my.oschina.net/u/3437790/blog/1519362

版权

MIC（Maximal information coefficient）一个很神奇的东西，源自于2011年发在sicence上的一个论文。

学过统计的都知道，有相关系数这么一个东西，通常叫做r。但是其实应该叫做线性相关系数，应用领域还是很窄的。而MIC这个东西呢，首先比较general，不管是什么函数关系，都可以识别，换句话说，正弦函数和双曲线函数和直线，对这个系数而言是一样的。此外还有一点，那就是，如果没有噪音的直线关系和没有噪音的正弦函数关系，他们的MIC都是1，加上相同的噪音之后，如果线性关系的MIC变成0.7了，那么正弦函数关系的MIC也变成0.7，换句话说，噪音对MIC造成的影响与变量之间的函数关系无关。当然这一论证在一篇论文中被反驳了，或者说部分反驳了。

为了说明白这个方法，首先引入一个Mutual inforamtion的东西：

是这么定义的。这里x和y是两个联系的随机变量，这个系数也可以用来衡量相关性，但是有很多缺点。比如，非均一性。不过这点在后面的论文中被推翻了，或者说，局部推翻。

p（x，y）是联合概率密度分布函数，想想就很难计算对不对，所以我们就要找一个办法来做这个事。怎么办呢？还记得蒙特卡洛么！这里有那么一点思想是这样的：

我们把两个随机变量化成散点图，然后不断的用小方格子去分割。然后计算每个方格子里面的落入概率。在某种意义上，就可以估计出联合概率密度分布了。当然，只有在数据量是无穷的情况下我们才可以认为是真的就相等了。所以，导致随后是数据量越大，MIC越好。看看第一篇nature文章的名字就知道了，Large Data Sets哦！所以如果只有几百条数据，关网页洗洗睡吧。最后，MIC就是这么计算的：

分母下面是什么意思呢？我们之前不是对散点图残忍的分割了好多块嘛，在X方向和Y方向上就有很多段了。所以|X|就是X方向共被分成了多少段的意思。Y方向也一样。

前面还有一个限制条件，就是|X||Y|<B，也就是说，所有的方格格总数不能大于B。B又是一个什么鬼呢？很遗憾，作者说，B取数据总量的0.6或者0.55次方。

转载于:https://my.oschina.net/u/3437790/blog/1519362

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
特征选取之最大信息系数（MIC）

MIC（Maximal information coefficient）一个很神奇的东西，源自于2011年发在sicence上的一个论文。学过统计的都知道，有相关系数这么一个东西，通常叫做r。但是其实应该叫做线性相关系数，应用领域还是很窄的。而MIC这个东西呢，首先比较general，不管...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。