最大信息系数 (Maximal Information Coefficient, MIC)详解(1)
四年前看过的一篇论文,当时还在组会上报告过,很确信当时把它弄懂了,由于当时是用机器学习的方法来做预测,一直没有用到它,很多都忘了,只记得Science上有这么一篇文章,里面讲了个最大信息系数,能度量各种关系,看起来很NB的样子。现在分析高通量测序数据,能用到它了,没办法又浪费了至少20个小时重看了一遍,弄懂后记下来,便于交流和以后自己查看。
那篇NB paper:
David N. Reshef, et al. (2011).Detecting Novel Associations in Large Data Sets.Science, 334(6062), 1518-1524.
这篇论文的一作去年还来过学校做过报告,可惜忘了去了!
下面会尽量解释清楚这篇论文的正文和补充材料里的所有内容。
1. 背景
首先回顾一下为了完全看懂这篇论文的正文和补充材料需要了解的相关背景知识,主要是统计学和信息论中的基本概念。
假设有两个变量X和Y,抽样得到了n对样本值(各有n个观测值):
样本均值和标准差:
皮尔逊(积矩)相关系数(Pearson product-moment correlation coefficient):
也就是通常说的(线性)相关系数&#