kl散度度量分布_数据挖掘比赛技巧——确定数据同分布

最新推荐文章于 2023-05-08 16:25:20 发布

VIP文章流浪者李田所

最新推荐文章于 2023-05-08 16:25:20 发布

阅读量1k

点赞数

文章标签： kl散度度量分布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36127428/article/details/112312849

版权

在数据挖掘比赛中，很重要的一个技巧就是要确定训练集与测试集特征是否同分布，这也是机器学习的一个很重要的假设^[1]。但很多时候我们知道这个道理，却很难有方法来保证数据同分布，这篇文章就分享一下我所了解的同分布检验方法。

封面：电影《红猪（红の豚）》

1. KS检验

KS是一种非参数检验方法，可以在不知道数据具体分布的情况下检验两个数据分布是否一致。当然这样方便的代价就是当检验的数据分布符合特定的分布事，KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候，KS检验作为非参数检验在分析两组数据之间是否不同时相当常用。^[2]

具体操作方法如下：

画出数据的累积分段图。举个例子，对于数据集 {1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}，先对其排序为 {0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}。其中比0.24小的一共有4个，占数据集的 1/5，所以0.24的累积分布值是0.2，依次类推我们可以画出累积分布图。

最低0.47元/天解锁文章

流浪者李田所

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kl散度度量分布_数据挖掘比赛技巧——确定数据同分布

在数据挖掘比赛中，很重要的一个技巧就是要确定训练集与测试集特征是否同分布，这也是机器学习的一个很重要的假设[1]。但很多时候我们知道这个道理，却很难有方法来保证数据同分布，这篇文章就分享一下我所了解的同分布检验方法。封面：电影《红猪（红の豚）》1. KS检验KS是一种非参数检验方法，可以在不知道数据具体分布的情况下检验两个数据分布是否一致。当然这样方便的代价就是当检验的数据分布符合特定的分布事，K...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。