啤酒厂提高亩产问题
t检验历史问题
问题分析
啤酒,主要原料是大麦,啤酒厂肯定是希望尽力提高亩产。
健力士公司有下面两块麦田:
麦田A采用传统A工艺进行种植,平均每株大麦可以结100粒穗子。
麦田B采用改进过的B工艺种植,健力士公司想知道“B工艺是否提高了产量”。
公司从B工艺的麦田中采样了5株大麦,样本均值为120粒穗子。
假设检验
- 假设:B工艺没有提高产量,即AB下的麦穗服从同一分布。
因此,要进行检验的是样本均值为120的概率高还是不高?
首先可以知道的:
- A工艺下的单株麦穗个数服从: X ∼ ( μ = 100 , σ 2 ) X\sim(\mu=100,\sigma^2) X∼(μ=100,σ2),即已知期望,未知方差。
- B工艺下的麦田样本均值 x ‾ = 120 \overline x = 120 x=120,采样了5株。
根据正态分布图像性质:
- 跨度是由标准差 σ \sigma σ决定。
令A的正态分布 X ∼ ( μ = 100 , σ 2 ) X\sim(\mu=100,\sigma^2) X∼(μ=100,σ2)中标准差 σ = 2 \sigma=2 σ=2:
随机选取五个样本令其平均值为120,、
可见该分布下平均值为120的概率是非常低的。
- 也就是说AB服从同一个分布的可能性很低。
- 我们有很大把握可以认为B工艺真正提高了产量。
增加其跨度,再随机选取五个样本:
可见该分布下平均值为120的概率并不低。
- 也就是说AB服从同一个分布的可能性并不低。
- 我们没有十足的把握可以认为B工艺真正提高了产量。
总结:除了最初的比较两个均值的差 x ‾ − μ 0 \overline x -\mu_0 x−μ0,还有标准差$\sigma $造成了影响。与此同时,样本数也会影响结果(大数定律)。
但是A田的标准差 σ \sigma σ未知,我们假设AB同分布,即用样本标准差 S S S。
综合考虑三个量
S
、
X
‾
、
n
S、\overline X、n
S、X、n,构造了统计量:
t
=
x
‾
−
μ
0
s
/
n
t=\frac{\overline x -\mu_0}{s/\sqrt{n}}
t=s/nx−μ0
那么该统计量则说明了AB工艺导致的差别越大,越有可能说明B工艺提高了产量。
t t t是服从自由度为 n − 1 n-1 n−1的 t t t分布的。
假设检验中很重要的一个量-p值便是指求出来的t之后的曲线面积:
如图中所示,t求出来为4,则p值为t=4后的曲线面积。查表得到p=0.01。
此时,如果我们要求5%的显著水平的话( α = 5 \alpha=5 α=5,表示原假设为正确时人们却把它拒绝了的概率),那么就可以拒绝原假设AB同分布,也就是拒绝没有提高产量这个假设。
参考资料:马同学高等数学公众号内容
https://mp.weixin.qq.com/s?__biz=MzIyMTU0NDMyNA==&mid=2247489064&idx=1&sn=fe18d9755e80b8deb34c72b060315d80&chksm=e83a7cc3df4df5d5e925741941fa1027e602f0af0284a651f0bd5431b24b78e0be65cb2903d0&scene=21#wechat_redirect p值相关