Maximal Information Coefficient 最大信息系数

在统计学中,最大信息系数用于衡量两个变量 X Y的线性或非线性的强度。来自Berkeley的Terry Speed说它是“a correlation for the 21st century”。但也有人说“MIC的统计能力遭到了一些质疑,当零假设不成立时,MIC的统计就会受到影响。在有的数据集上不存在这个问题,但有的数据集上就存在这个问题。”

介绍

定义

Maximal Information Coefficient (MIC) 最大信息系数,属于Maximal Information-based Nonparametric Exploration (MINE) 最大的基于信息的非参数性探索,用于衡量两个变量 X Y的线性或非线性的强度。

起源

Reshef, David N., et al. “Detecting novel associations in large data sets.” science 334.6062 (2011): 1518-1524.

优点

generality:拥有足够的统计样本时,可以捕获广泛的关系,而不限定于特定的函数类型(如线性、指数型、周期型等)。
equitability:对不同类型的噪声程度同等的关系给予相近的分数。

缺点

“MIC的统计能力遭到了一些质疑,当零假设不成立时,MIC的统计就会受到影响。在有的数据集上不存在这个问题,但有的数据集上就存在这个问题。”

应用领域

统计学

相关

Maximal Information-based Nonparametric Exploration (MINE) 最大的基于信息的非参数性探索

思想

如果两个变量之间存在关系,则在这二者的散点图中,可以绘制网格(grid)来划分数据进行封装关系。

实现

Python

  • minepy

    http://minepy.sourceforge.net/

    • mic_sample.py

      from minepy import MINE
      import numpy as np
      
      np.random.seed(0)
      size = 1000
      X = np.random.uniform(0, 2, (size, 5))
      Y = X[:, 1] + X[:, 2] ** 2 + np.sin(np.pi * 0.5 * X[:, 3]) + \
          np.log(X[:, 4]) + np.random.normal(0, 1)
      X[:, 0] = X[:, 1] + np.random.normal(0, 1)
      
      mine = MINE()
      mic_scores = []
      for i in range(X.shape[1]):
          mine.compute_score(X[:, i], Y)
          m = mine.mic()
          mic_scores.append(m)
      
      print(mic_scores)
      • output (possible)

        [0.21735785164297244, 0.21735785164297244, 0.48351888068913057, 0.14723020968106829, 0.31786293970009444]

应用

TODO

参考

  1. Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.
  2. http://blog.sciencenet.cn/blog-830496-872998.html
  3. http://dataunion.org/14072.html
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Maximal Information Coefficient最大信息系数)是一种用于计算变量之间相关性的方法。该方法可以在自然的、无监督的方式下学习变量之间的关系,而无需预设模型或参数。 MATLAB是一种用于科学计算和数据分析的工具。MATLAB提供了一系列内置的函数和工具箱来计算MIC最大信息系数)。要计算MIC,可以使用MATLAB中的mic函数。mic函数接受输入向量或矩阵作为参数,并返回两个变量之间的MIC值及其p值。 使用matlab进行MCI计算非常方便。只需从mic函数中提供需要计算的两个变量的数据,并选择任何其他可选参数(例如,MIC类型、置信水平等)。输出将包括MIC值及其p值。 综上所述,MATLAB提供了一个强大而灵活的工具,可以计算变量之间的最大信息系数。这是一种实用的方法,可用于许多领域,例如数据挖掘、模式识别、基因表达分析等。 ### 回答2: 最大信息系数,即maximal information coefficient (MIC)是一种衡量两个变量之间关系的度量,它能够检测到线性和非线性的相关性。使用MATLAB可以方便地计算MIC值。 MATLAB中的MIC计算方法分为两步:第一步是利用单变量信息理论工具,计算两个变量中每一个变量和其它变量之间的互信息量,得到一个图像矩阵;第二步是根据wasserstein距离选择最大的单调关系,以便最终得到一个MIC值。 MATLAB中mic函数可用于计算MIC值。该函数需要输入两个变量的数组x和y,然后返回其MIC值。 使用MIC检测变量之间的关系有许多应用,比如在复杂数据集中发现变量之间的相关性以及在生物学中研究基因表达和疾病之间的关系等。由于其灵活性和易于操作性,MATLAB中的MIC计算工具在分析大量数据时具有重要的作用。 ### 回答3: 最大信息系数Maximal Information CoefficientMIC)是一种用于量化两个变量之间关联度的方法,它能够识别出各种类型的关联关系包括非线性关系。Maximal Information Coefficient matlab是一个常用工具,用于计算最大信息系数,它可以帮助我们分析数据集,探测出它们之间的关联性。在matlab中安装了MIC工具箱后,我们可以使用mic函数来计算两个变量的最大信息系数,并以此评估它们之间的关联性。 使用mic函数进行最大信息系数分析时,需要输入两个变量的数值矩阵,返回的结果包括最大信息系数的值和P值。最大信息系数值越高,说明两个变量之间的关联程度越强。P值则表示其显著性程度,P值越小,说明结果越可靠。我们还可以通过设置变量之间的最小重合部分来完善结果。 最大信息系数是一种数据挖掘和机器学习方法,它可应用于许多领域,包括生物学,经济学和社会学等。在生物学中,最大信息系数可用于分析基因表达和生物多样性数据,探讨不同物种间的关联性。在经济学中,它可用于分析股票价格的波动和其他金融数据的关联,以便制定投资策略。最大信息系数的应用广泛,可帮助我们更好地理解变量间的关系,并从中提取有价值的信息

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值