Permutation test取样样本对结果的影响

最新推荐文章于 2022-04-11 17:46:04 发布

IrismoonWang

最新推荐文章于 2022-04-11 17:46:04 发布

阅读量701

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IrismoonWang/article/details/105955778

版权

Permutation test到底置换多少次呢？少了觉得哪里不对劲，多了计算太消耗资源。这里评估一下置换次数对结果的影响，本质上是探讨采样样本数量对推断总体统计分布的影响。
假如实际的总体分布服从下图中蓝色所示的概率分布曲线，每个bar代表一个bin，纵轴为该bin的发生概率。在这里插入图片描述当取样500个样本时，由于500*0.001<1, 所以0.0001对应的bin根本不会被采集到，实际用这500个样本推断构建的概率分布为下图红色所示，可以看到当x大于2.5时，其概率为零。即对于概率小于1/500的样本，是不可能取到的。or,重构的概率分布的分辨率是1/500，如果两个bin的发生概率的区别小于1/500，是检测不到的。
而取样1000个样本时，构建的概率分布为绿色分布，能够取到更大的取值范围。对于概率小于1/1000的样本不可能取到。
在这里插入图片描述回到permutation test，假设观测值为2.5，对于样本为500的情况，其估计p值为0，则显著，1000对应的估计p值约为0.01，则不显著，而其在null distribution对应的估计p值为0.024，更不显著，因此取样500会导致错误的显著性检验结果。
那么有没有定量的公式确定至少要取多少个样本呢？留待以后探索。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Permutation test取样样本对结果的影响

Permutation test到底置换多少次呢？少了觉得哪里不对劲，多了计算太消耗资源。这里评估一下置换次数对结果的影响，本质上是探讨采样样本数量对推断总体统计分布的影响。假如实际的总体分布服从下图中蓝色所示的概率分布曲线，每个bar代表一个bin，纵轴为该bin的发生概率。当取样500个样本时，由于500*0.001<1, 所以0.0001对应的bin根本不会被采集到，实际用这500个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。