机器学习中检验样本抽样的均匀——KL散度检验和K-S检验

最新推荐文章于 2024-03-04 09:40:12 发布

VIP文章 glanose

最新推荐文章于 2024-03-04 09:40:12 发布

阅读量6.5k

点赞数

分类专栏：随笔学习笔记实习笔记文章标签：机器学习稳定性机器学习数据分析人工智能统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a790209714/article/details/78093954

版权

最近做的一个项目中，需要对原来的数据进行一定量的采样形成训练集，因此需要保证采样的均匀性以保证样本参数的同分布性。

样本数据是这样的：

ID.wav

Date

可以看到，样本数据只有日期参数可以使用，所以我采用对抽样后的样本跟总体的日期参数进行分布检验的方法。

因为日期的分布不具有分布假设，所以需要用非参数检验方法，直接比较两个分布的差异，我找到两种方法：

1.机器学习中常用的KL散度方法

2.社会统计学中常用的K-S检验方法

简单介绍一下这两种方法：

KL散度

在总体分布P的每一个值上进行加权，对于P很大的时候Q也要很大，P很小时Q的大小没关系，以保证Q是P的局部样本

$KL(P||Q) = \sum_i P(i) \log \left(P(i) \over Q(i)\right)$

直观来说，这是对随机变量的每个取值上， $\log(P(i)/Q(i))$ 这个值的加权平均。这里加权的权值是 $P(i)$ （其实就是算了个期望）。

在

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习中检验样本抽样的均匀——KL散度检验和K-S检验

最近做的一个项目中，需要对原来的数据进行一定量的采样形成训练集，因此需要保证采样的均匀性以保证样本参数的同分布性。样本数据是这样的：ID.wavDate可以看到，样本数据只有日期参数可以使用，所以我采用对抽样后的样本跟总体的日期参数进行分布检验的方法。因为日期的分布不具有分布假设，所以需要用非参数检验方法，直接比较两个分布的差异，我找到两种方法：1.机器学习中常用的KL散度方法2.社会统计学中常用...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。