前言:
在机器学习中,我们在新的样本上遇到测试的偏差跟原来差距很大。
一个研究方向就是比较数据集差异,如果确实是数据集差异过大导致的,可以
保留原有的模型不变,增加一个新的模型处理新的数据。然后多个模型集合起来处理
也就是集成学习的思想。
目录
- 单个总体情况
- 两个总体情况
- 例子
一 单个总体情况
.1.1 原假设H0,分3种情况 ,这里都是上分位数
a
b
c
1.2 统计量
1.3 拒绝域
a :chi2.isf(q)
b : chi2.ppf(q),或者chi2.isf(1-q)
c and
二 两个总体的情况
设 是来自总体的样本,
是来自总体的样本,且两个样本独立。且样本方差,
且 均为未知,现在需要检验假设(显著水平为)
根据样本方差是方差的无偏估计
当H0 为真时候,
当H1 为真时候
常数K确定如下:
所以要控制P{当H0为真拒绝H0},只需要
服从
称为F 分布
三 例
3.1 某工厂生产某种型号的电池,其寿命(h)长期以来服从方差的正态分布,
现有一批电池,随机取26只,测出其寿命的样本方差为,问根据这一数据是否能推断出电池寿命的波动比较以往发生显著的变化()
解:
'''
n 自由度
sigma 方差
S 样本方差
'''
def EstimateC():
n = 26
s = 9200
sigma = 5000
alpha = 0.02
z = (n-1)*s/sigma
print("\n 统计量: %5.3f"%z)
low = chi2.ppf(alpha/2,n-1)
up = chi2.isf(alpha/2,n-1)
print("\n 拒绝域 >%5.3f or <%5.3f"%(up,low))
if z>up or z<low:
print("\n 拒绝原假设H0")
else:
print("\n 原假设成立")
if __name__ =="__main__":
EstimateC()
=======输出======
统计量: 46.000
拒绝域 >44.314 or <11.524
拒绝原假设H0
3.2 两个样本分别来自总体,且样本独立,
试验,,以说明我们的假设
,取显著水平 。 n1= 13, n2 =8,
解
def Est(self):
sa = 0.024**2
sb = 0.031**2
n1 = 13
n2 = 8
alpha= 0.01
z = (sa/sb)
print("\n 统计量 %5.2f"%z)
right = f.isf(alpha/2,n1-1,n2-1)
left = f.ppf(alpha/2,n1-1,n2-1)
print("\n 拒绝域 [-, 左边%5.2f] [右边%5.2f]"%(left,right))
if z < left or z> right:
print("\n 拒绝原假设")
else:
print("\n ===原假设H0 成立========")
输出
===原假设H0 成立========