用来衡量两个随机变量之间的相关性的常见指标:
1.Pearson相关系数(Pearson Correlation Coefficient):
用于衡量两个连续型随机变量之间线性相关性的强度和方向。取值范围在-1到1之间,接近1表示正相关,接近-1表示负相关,接近0表示无线性相关。Pearson相关系数的计算公式如下:
其中, 和 分别表示两个随机变量的观测值, 和 分别表示两个随机变量的均值,n表示样本数量。
2.斯皮尔曼秩相关系数(Spearman Rank Correlation Coefficient):
用于衡量两个随机变量之间的单调相关性,不要求数据服从正态分布。通过将原始数据转化为秩次数据,计算秩次之间的皮尔逊相关系数得到。斯皮尔曼秩相关系数的计算公式如下:
其中, 表示两个随机变量对应的秩次之差,n表示样本数量。
3.切比雪夫距离(Chebyshev Distance):
用于衡量两个随机变量之间的差异或相似程度,由两个随机变量在各点上的最大差值来表示。切比雪夫距离的计算公式如下:
其中, 和 分别表示两个随机变量在第i个维度上的取值。
4.KL散度(Kullback-Leibler Divergence):
用于衡量两个概率分布之间的差异性,衡量在一个概率分布下产生的信息量相对于另一个分布所需要的额外信息量。KL散度的计算公式如下:
其中,P和Q分别表示两个概率分布。