统计学:HHG相关性算法

HHG(Heller-Heller-Gorfine)算法是一种强大的相关性检测方法,能够处理线性、非线性、单调、非单调等各种相关性类型。与传统的Pearson、Spearman和Kendall方法相比,HHG算法能够发现局部相关性和复杂的数据关系,尤其在小样本和非函数相关的情况下表现优越。通过计算样本间的距离和使用卡方检验,HHG能识别出局部相关性的样本集合,为数据分析提供了更全面的视角。
摘要由CSDN通过智能技术生成

统计相关性

算法

统计学一个最基本的关注点就是两个随机变量之间有没有相关性,或者说是否完全独立。所有学过统计学的人都知道最基本的Pearson相关系数。一般的统计学教授还知道统计书里的Spearman和Kendall这两种非参数方法。这三大方法的文章和讨论比比皆是,网上随便都能搜到。
注:非参数方法是指不对变量的总体概率分布做任何假设的统计方法

除了常见的三大方法外,还有许多不太知名的方法其实更加强大。想要全面的了解,笔者推荐这篇论文:“A comparative study of statistical methods used to identify dependencies between gene expression signals” (2014) 。这篇还不算太老的文章全面地总结了所有当时已知的相关性算法,并且用系统化的方法benchmark了它们的性能,是快速了解这一领域全貌的绝佳地图。本文中大部分图片都来自此篇paper,侵删。

相关性的几种分类方式

线性 v.s. 非线性

一般提到相关性,我们脑海中往往想的是线性相关性。如下图所示:
线性相关
这幅图虽然不太明显,但大致还是能看出来x和y两个变量之间存在正线性相关关系,不难画出一条过0点斜率大概为1的直线来近似这种关系。Pearson相关性计算的就是线性相关程度,如果相关度高就可以进一步用Linear Regression来建模拟合线性模型了。

既然有线性相关,自然就有非线性相关。如下图所示:
非线性相关
图中的点明显地指出了一个形如 y = e x − 1 y=e^x-1 y=ex1 的指数函数,你可以点击这里看看wolfram alpha画出来的此函数图形, 是不是拟合的很好?
像这种非线性相关关系,用Pearson方法就很吃力了。但还可以用spearman或者kendall来处理,因为这二者不使用变量的具体数值来计算,而是用值的相对大小(序数, rank)计算的。序数和比赛里的第一名,第二名一样,就是对一些数字(选手成绩)排序后的名次。比如对一个变量X={2,5,7,3}, 从小到大排序后的序数就是Rank(X)={1,3,4,2}。只要是一个值比另一个大,这两种算法就不在乎具体是线性还是非线性相关,都能正确地找出相关性。

单调(monotonic) v.s. 非单调(non-monotonic)

单调函数是指随着x的逐渐增大,y也会一直增大(或减小)的函数。反应在图上就是条一直上升(或下降)的线,不会中间突然改变上升或下降的趋势。上面的指数函数图就是一个单调函数。

违反单调函数定义的函数就是非单调函数了,图形上显示为一条随着x的增大, y时而上升而又时而下降的函数,如下图所示:
非单调非线性相关
我们可以用一个形如 y = x 2 y=x^2 y=x2 的多项式来拟合,看看wolfram画的图
此图显示的是一个非线性,非单调的相关关系。这时就连spearman和kendall方法都失效了,因为这图上左半部分和右半部分的排序在计算过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值