样本量对差异性分析（Anova）或者T 检验的影响

最新推荐文章于 2024-06-07 15:51:11 发布

花花呼呼

最新推荐文章于 2024-06-07 15:51:11 发布

阅读量1.8w

点赞数

分类专栏：统计学

本文链接：https://blog.csdn.net/lglfa/article/details/80575123

版权

统计学专栏收录该内容

10 篇文章

订阅专栏

本文探讨了样本量大小如何影响统计显著性的判断。通过对比大量数据与平均数据的差异性分析，说明了样本量增大时更容易获得显著性差异结论的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

样本量大的时候做差异性分析容易得到有显著性差异的结论，原因如下图，求p值的过程中，n越大，Z0也越大，相对应的p就小了。当然这里默认方差变化不大的情况下，因为一般来说很多数据经过平均后方差不会变化很大，相比平均前后的样本量。

p值计算, from google image

下图中的数据，y1和y2的数据量各为1000，y1m和y2m数据量各为100，是y1和y2每10个10个数据的平均，所以y1和y1m，y2和y2m的平均值相等，他们的方差也是基本没大变化，我们分别对y1和y2，y1m和y2m做下差异性分析，这里用单因素方差分析（anova1），其实用独立样本t-test会得到相同的结果（计算公式形式虽然不一样，但换汤不换药，结果一样的）.
结果是，y1和y2的p值为0.0189，他们之间有显著性差别；y1m和y2m的p值 0.4603，fail to reject原假设（H0：他们之间没差别），不能说他们之间有显著性差别的。

标准差

MATLAB代码

y1 = sin([0.01:0.01:10])*10;
y2= y1+0.7;
p  = anova1([y1;y2]')

y1m = mean(reshape(y1,10,100));
y2m = mean(reshape(y2,10,100));
pm  = anova1([y1m;y2m]')

subplot(2,1,1)
plot(y1,'.')
hold on 
plot(y2, '.')
legend('y1','y2')
subplot(2,1,2)
plot(y1m,'.')
hold on
plot(y2m,'.')
legend('y1m','y2m')