假设检验和p值
极端情况的概率称为p值
小鼠注射实验,注射前小鼠反应时间 μ \mu μ=1.2s,现在进行药物实验,样本大小 n n n=100, s x ‾ s_{\overline x} sx=0.5,mean=1.05。
假设 H 0 H_0 H0= 药物无效果
备择假设 H 1 H_1 H1=药物有效
思路:对于 H 0 H_0 H0如果药物无效果,则抽样分布中, μ x ‾ = μ = 1.2 s \mu_{\overline x}=\mu=1.2s μx=μ=1.2s; σ x ‾ = σ 100 \sigma_{\overline x}=\frac{\sigma}{\sqrt {100}} σx=100σ; 其中由于总体的标准差 σ \sigma σ 未知,因此可使用 s s s进行估计,得到 σ x ‾ \sigma_{\overline x} σx=0.05,计算1.05距离1.2有几个标准差的距离: z = 1.2 − 1.05 0.05 = 3 z=\frac{1.2-1.05}{0.05}=3 z=0.051.2−1.05=3 ,如果 H 0 H_0 H0成立,反应时间为1.05发生的概率p = 1-99.7%=0.3%
因此拒绝假设 H 0 H_0 H0.
单侧检验和双侧检验
双侧:考虑两侧极端情况
单侧:考虑某一侧极端情况
z统计量/t统计量
当计算距离样本均值多少个标准差时,如果n>30,则使用z-table;如果n<=30,则使用t-table,分别得到相应的z统计量和t统计量
第一型错误
拒绝了正确的零假设。(即使是零假设,依然是有一定的概率可能发生)
小样本假设检验
1、计算相关统计量:如 μ , σ \mu , \sigma μ,σ等
2、定义零假设、备择假设
3、计算z/t-score
允许以概率p犯第一型错误,当得到实际P<p时,拒绝 H 0 H_0 H0
t统计量置信区间
根据具体的题目,可以不用 μ \mu μ表示 μ x ‾ \mu_{\overline x} μx ,而是估计某置信区间内, μ x ‾ \mu_{\overline x} μx的真实可能范围
大样本占比假设检验
显著性水平
n p > 5 n ( 1 − p ) > 5 np>5 \\ n(1-p)>5 np>5n(1−p)>5
满足此条件时,假定样本占比的分布为正态分布
第一型错误的p值和显著性水平
随机变量之差的方差
处理随机变量的和与差
随机变量X和Y,相互独立
E ( X ) = μ x E(X)=\mu_x E(X)=μx
E ( Y ) = μ y E(Y)=\mu_y E(Y)=μy
V a r ( X ) = E ( ( X − μ x ) 2 ) = σ x 2 Var(X)=E((X-\mu_x)^2)=\sigma^2_x Var(X)=E((X−μx)2)=σx2
V a r ( Y ) = E ( ( Y − μ y ) 2 ) = σ x 2 Var(Y)=E((Y-\mu_y)^2)=\sigma^2_x Var(Y)=E((Y−μy)2)=σx2
Z = X + Y Z=X+Y Z=X+Y
E ( Z ) = E ( X + Y ) = E ( x ) + E ( Y ) E(Z)=E(X+Y)=E(x)+E(Y) E(Z)=E(X+Y)=E(x)+E(Y)
μ z = μ x + μ y \mu_z=\mu_x + \mu_y μz=μx+μy
V a r ( Z ) = V a r ( X ) + V a r ( Y ) Var(Z)=Var(X)+Var(Y) Var(Z)=Var(X)+Var(Y)
σ z 2 = σ x + y 2 = σ x 2 + σ y 2 \sigma^2_z=\sigma^2_{x+y}=\sigma^2_x+\sigma^2_y σz2=σx+y2=σx2+σy2
σ y 2 = σ − y 2 \sigma^2_y=\sigma^2_{-y} σy2=σ−y2
随机变量之差的均值等于均值之差
随机变量之和的均值等于均值之和
随机变量之差的方差等于方差之和
随机变量之和的方差等于方差之和
σ x ‾ − y ‾ 2 = σ x ‾ 2 + σ y ‾ 2 = σ x 2 n + σ y 2 m \sigma^2_{\overline x -\overline y}=\sigma^2 _{\overline x} +\sigma^2_{\overline y}=\frac{\sigma^2_x}{n}+\frac{\sigma^2_y}{m} σx−y2=σx2+σy2=nσx2+mσy2
在95%的置信度下,在均值之差的分布上距离该分布均值1.96个标准差,通过该值可计算出相应的置信区间
均值之差的假设检验
具体方法同均值分布做法相同
总体占比的比较
1、两个伯努利分布-相关统计量计算
2、计算均值之差-差值的抽样分布相关统计量计算
3、应用:两个抽样分布是否有差别?
a-计算置信区间-置信度-(估计)多少个标准差-置信区间
b-运用假设检验-得到差值落在什么区间-是否达到显著性
其中a方法中,用估计的方法计算差值分布的标准差,最终得到一定置信度下的置信区间
b方法中,由于我们已经有了两组样本,并且做了零假设(零假设中,假设两组样本是无差别的),因此整合两组数据,使得 P 1 = P 2 = P P_1=P_2=P P1=P2=P,整合两组样本重新计算整体的P值,从而得到更合适的标准差估计。