学习记录——两个随机变量相关性的衡量指标

用来衡量两个随机变量之间的相关性的常见指标:

 1.Pearson相关系数(Pearson Correlation Coefficient):

       用于衡量两个连续型随机变量之间线性相关性的强度和方向。取值范围在-1到1之间,接近1表示正相关,接近-1表示负相关,接近0表示无线性相关。Pearson相关系数的计算公式如下:

                                                     r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2}}

       其中,X_iY_i 分别表示两个随机变量的观测值,\bar{X}\bar{Y} 分别表示两个随机变量的均值,n表示样本数量。

2.斯皮尔曼秩相关系数(Spearman Rank Correlation Coefficient):

       用于衡量两个随机变量之间的单调相关性,不要求数据服从正态分布。通过将原始数据转化为秩次数据,计算秩次之间的皮尔逊相关系数得到。斯皮尔曼秩相关系数的计算公式如下:

                                                              \rho = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)}

       其中,d_i 表示两个随机变量对应的秩次之差,n表示样本数量。

3.切比雪夫距离(Chebyshev Distance):

       用于衡量两个随机变量之间的差异或相似程度,由两个随机变量在各点上的最大差值来表示。切比雪夫距离的计算公式如下:

                            D = \max(|X_1 - Y_1|, |X_2 - Y_2|, ..., |X_n - Y_n|) 

       其中, X_iY_i 分别表示两个随机变量在第i个维度上的取值。

4.KL散度(Kullback-Leibler Divergence):

       用于衡量两个概率分布之间的差异性,衡量在一个概率分布下产生的信息量相对于另一个分布所需要的额外信息量。KL散度的计算公式如下:              

                                           D_{KL}(P||Q) = \sum_{i} P(i) \log \left(\frac{P(i)}{Q(i)}\right)

       其中,P和Q分别表示两个概率分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值