【K-S检验】检验两个数据集的分布是否一致

【K-S检验】检验两个数据集的分布是否一致

前言:在训练机器学习模型时,遇到了模型在数据集分割出来的test set上预测准确率高,但是在另一个test set数据集上预测准确率很低的情况。第一直觉是判断两个数据集的分布是否一致。

K-S检验方法

KS-test(Kolmogorov–Smirnov test)一般用来检验两个数据分布是否一致,KS检验不用假设数据的分布情况,算是一种非参数检验方法。
下图是两个数据的累积分布函数(CDF):
在这里插入图片描述
在这里插入图片描述

代码

from scipy.stats import ks_2samp

dataset_a = ['123','456']
dataset_b= ['789','12321']
result = ks_2samp(dataset_a,dataset_b).pvalue

print("pvalue between 2 datasets: {}".format(result))

我们先生成两个数据集的list,使用ks_2samp检验两个list是否来自同一个样本,首先提出假设:dataset_a和dataset_b服从相同的分布。

最终返回的结果,p-value=6.060226485128174e-18,比指定的显著水平(假设为5%)小,则我们完全可以拒绝假设:dataset_a和dataset_b不服从同一分布

p_value越大,说明两者属于同一分布的可能性越大。
p_value越小(越接近0),说明两者属于同一分布的概率越小。一般来说小于5%,就能证明原假设不成立,即dataset_a和dataset_b不服从同一分布。

注:用来比较的两个数据集的长度(size)可以不相同。

参考文献

[1] 双样本KS检验与p-value推导(Kolmogorov–Smirnov test)
[2] 使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
[3] 5种数据同分布的检测方法
[4] 训练集/测试集分布一致性检查

  • 4
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值