# 引入相关工具库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use("ggplot")
import warnings
warnings.filterwarnings("ignore")
plt.rcParams['font.sans-serif']=['SimHei','Songti SC','STFangsong']
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
import seaborn as sns
np.random.choice方法含义是从列表a中随机选取值
1.总体和样本
总体
总体就是一个概率分布,总体的数量指标就是服从该概率分布的一个随机变量
总体分为:有限总体和无限总体, 大多数我们说的总体是无限总体
样本的二重性
- 样本是一个随机变量, 用大写字母 X 1 , X 2 , ⋯ , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,⋯,Xn 表示;
- 样本在抽取以后经观测就有确定的观测值, 因此, 样本又是一组数值, 此时用小写字母 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 表示是合适的。 为了描述的简单,我们只用小写字母表示样本 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn,不管样本是随机变量还是具体的数值,都用小写字母表示。
简单随机抽样需要满足的两个要求
- 从总体中抽取的样本具有代表性:具有代表性要求总体中每一个个体都有同等机会被选入样本中,也就意味着样本中的每一个样品 x i x_i xi与总体X有相同的分布,简称“同分布”。
- 从总体中抽取的样本具有独立性:具有独立性即要求样本中每一样品的取值不影响其他样品的取值, 也就意味着
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 之间相互独立。
设总体 X X X 具有分布函数 F ( x ) , x 1 , x 2 , ⋯ , x n F(x), x_{1}, x_{2}, \cdots, x_{n} F(x),x1,x2,⋯,xn 为取自该总体的容量为 n n n 的样本,则样本联合分布函数为
F ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n F ( x i ) . F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right) . F(x1,x2,⋯,xn)=i=1∏nF(xi).
不满足独立同分布的假设的,比如:时间序列数据,前后之间存在关联,因此不是相互独立的。
2.经验分布函数与直方图
经验分布函数
(1)经验分布函数:
统计学的一个重要核心就是使用样本信息估计总体信息,有的时候总体往往是未知的,我们只能通过多次试验的样本(即实际值)来推断总体。经验分布函数就是使用样本信息构造的分布函数近似未知的总体分布函数:
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 是取自总体分布函数为
F
(
x
)
F(x)
F(x) 的样本, 若将样本观测值由小到大进行排列, 记为
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
x_{(1)}, x_{(2)}, \cdots, x_{(n)}
x(1),x(2),⋯,x(n), 则
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
x_{(1)}, x_{(2)}, \cdots, x_{(n)}
x(1),x(2),⋯,x(n) 称为有序样本, 用有序样本定义如下函数
F
n
(
x
)
=
{
0
,
当
x
<
x
(
1
)
,
k
/
n
,
当
x
(
k
)
⩽
x
<
x
(
k
+
1
)
,
k
=
1
,
2
,
⋯
,
n
−
1
,
1
,
当
x
⩾
x
(
n
)
,
F_{n}(x)= \begin{cases}0, & \text { 当 } x<x_{(1)}, \\ k / n, & \text { 当 } x_{(k)} \leqslant x<x_{(k+1)}, k=1,2, \cdots, n-1, \\ 1, & \text { 当 } x \geqslant x_{(n)},\end{cases}
Fn(x)=⎩⎪⎨⎪⎧0,k/n,1, 当 x<x(1), 当 x(k)⩽x<x(k+1),k=1,2,⋯,n−1, 当 x⩾x(n),
则
F
n
(
x
)
F_{n}(x)
Fn(x) 是一非减右连续函数, 且满足
F
n
(
−
∞
)
=
0
和
F
n
(
∞
)
=
1.
F_{n}(-\infty)=0 \text { 和 } F_{n}(\infty)=1 .
Fn(−∞)=0 和 Fn(∞)=1.
由此可见,
F
n
(
x
)
F_{n}(x)
Fn(x) 是一个分布函数, 称
F
n
(
x
)
F_{n}(x)
Fn(x) 为该样本的经验分布函数。
频数直方图的画法 plt.hist
连续变量(定量变量)的概率分布的估计
x_samples = np.random.randn(1000)
plt.hist(x_samples, bins=10,color='blue',alpha=0.6) # bins=10代表10根柱子
plt.xlabel("x")
plt.ylabel("频数 n")
plt.title("频数直方图")
plt.show()
直方图缺点:无法数值化进行研究
进行数值化最有效的方式就是构造关于样本的函数
density=True 的意思是保证该面积的积分为1,并不是概率和为1
3.统计量与三大抽样分布
统计量
设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 为取自某总体的样本, 若样本函数 T = T ( x 1 , x 2 , ⋯ , x n ) T=T\left(x_{1}, x_{2}, \cdots, x_{n}\right) T=T(x1,x2,⋯,xn) 中不含有任何末知参数, 则称 T T T 为统计量。统计量的分布称为抽样分布
1.统计量不含未知参数
2.样本平均数
x
ˉ
=
x
1
+
x
2
+
⋯
+
x
n
n
=
1
n
∑
i
=
1
n
x
i
\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i}
xˉ=nx1+x2+⋯+xn=n1∑i=1nxi和样本方差
s
n
2
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
sn2=n1∑i=1n(xi−xˉ)2都是统计量
3.统计量由样本决定,从而统计量因样本而异,对于同一总体,由于抽取样本是具有随机性的,因此抽取不同的样本,统计量就不同,从而统计量也是一个随机变量。统计量的分布称为抽样分布。虽然统计量不依赖于任何参数,但统计量的分布一般依赖于未知参数。
常用的统计量及其对应的抽样分布
(1.1)样本均值:
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 为取自某总体的样本, 其算术平均值称为样本均值,一 般用
x
ˉ
\bar{x}
xˉ 表示,即
x
ˉ
=
x
1
+
x
2
+
⋯
+
x
n
n
=
1
n
∑
i
=
1
n
x
i
\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i}
xˉ=nx1+x2+⋯+xn=n1i=1∑nxi
如果把样本中的数据与样本均值的差称为偏差 即
∑
i
=
1
n
(
x
i
−
x
ˉ
)
\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)
∑i=1n(xi−xˉ)。
偏差和
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean) # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)
统计量——样本均值的分布,即样本均值的抽样分布当n越来越大时近似服从正态分布,具体来说:
设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是来自某个总体的样本, x ˉ \bar{x} xˉ 为样本均值。
(1)若总体分布为 N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2), 则 x ˉ \bar{x} xˉ 的精确分布为 N ( μ , σ 2 / n ) N\left(\mu, \sigma^{2} / n\right) N(μ,σ2/n);
(2) 若总体分布末知或不是正态分布, E ( x ) = μ , Var ( x ) = σ 2 E(x)=\mu, \operatorname{Var}(x)=\sigma^{2} E(x)=μ,Var(x)=σ2 存在, 则 n n n 较大时 x ˉ \bar{x} xˉ 的渐近分布为 N ( μ , σ 2 / n ) N\left(\mu, \sigma^{2} / n\right) N(μ,σ2/n)。 这里渐近分布是指 n n n 较大时的近似分布。
(1.2)样本方差与样本标准差:
样本方差
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 为取自某总体的样本,则它关于样本均值
x
ˉ
\bar{x}
xˉ 的平均偏差平方和
s
n
2
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
sn2=n1i=1∑n(xi−xˉ)2
样本标准差
样本方差的算术平方根,即:
s
n
=
s
n
2
s_{n}=\sqrt{s_{n}^{2}}
sn=sn2。
样本标准差可以与均值发生计算关系,表示数据的范围,如:
(
x
ˉ
−
3
s
n
,
x
ˉ
+
3
s
n
)
(\bar{x}-3s_n, \bar{x}+3s_n)
(xˉ−3sn,xˉ+3sn)表示数据的范围在样本均值的三个标准差范围
无偏方差
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} s2=n−11∑i=1n(xi−xˉ)2。 s 2 s^{2} s2
当样本量较大时, s n 2 s_n^2 sn2与 s 2 s^2 s2相差不大,可以随意使用,当样本量较小时,计算样本方差最好使用无偏样本方差 s 2 s^2 s2
注意:后面我们所说的样本方差都是指无偏样本方差
(1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
(2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
样本方差/样本标准差的分布并没有像样本均值那样有完美的渐近分布
不同总体下的样本方差/样本标准差的分布都不一样
设总体为
X
X
X 方差存在, 即
E
(
X
)
=
μ
,
Var
(
X
)
=
σ
2
<
∞
,
x
1
,
x
2
,
⋯
,
x
n
E(X)=\mu, \operatorname{Var}(X)=\sigma^{2}<\infty, x_{1}, x_{2}, \cdots, x_{n}
E(X)=μ,Var(X)=σ2<∞,x1,x2,⋯,xn 为 从该总体得到的样本,
x
ˉ
\bar{x}
xˉ 和
s
2
s^{2}
s2 分别是样本均值和样本方差, 则
E
(
x
ˉ
)
=
μ
,
Var
(
x
ˉ
)
=
σ
2
/
n
,
E
(
s
2
)
=
σ
2
.
\begin{gathered} E(\bar{x})=\mu, \quad \operatorname{Var}(\bar{x})=\sigma^{2} / n, \\ E\left(s^{2}\right)=\sigma^{2} . \end{gathered}
E(xˉ)=μ,Var(xˉ)=σ2/n,E(s2)=σ2.
样本均值的期望与总体均值相同, 而样本均值的方差是总体方差的
1
/
n
1 / n
1/n。
(1.3)次序统计量及其分布
(1.3)次序统计量及其分布(了解)
设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是取自总体 X X X 的样本, x ( i ) x_{(i)} x(i) 称为该样本的第 i i i 个次序统计量, 它的取值是将样本观测值由小到大排列后得到的第 i i i 个观测值。 其中 x ( 1 ) = x_{(1)}= x(1)= min { x 1 , x 2 , ⋯ , x n } \min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\} min{x1,x2,⋯,xn} 称为该样本的最小次序统计量, x ( n ) = max { x 1 , x 2 , ⋯ , x n } x_{(n)}=\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\} x(n)=max{x1,x2,⋯,xn} 称为该样本的最大次序统计量。
from scipy.stats import rv_discrete # 自定义离散分布
```'
### (1.4)样本分位数与样本中位数及其抽样分布
中位数是指累计概率$p=0.5$时对应的随机变量值$x$
而样本抽样后的一组离散个数的取值,因此,我们定义样本中位数只需要查找抽样后的样本中排在中间的那个样品
```python
# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本 p 分位数
样本
p
p
p 分位数
m
p
m_{p}
mp 可如下定义:
m
p
=
{
x
(
[
n
p
+
1
]
)
,
若
n
p
不是整数,
1
2
(
x
(
n
p
)
+
x
(
n
p
+
1
)
)
,
若
n
p
是整数.
m_{p}= \begin{cases}x_{([n p+1])}, & \text { 若 } n p \text { 不是整数, } \\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), & \text { 若 } n p \text { 是整数. }\end{cases}
mp={x([np+1]),21(x(np)+x(np+1)), 若 np 不是整数, 若 np 是整数.
先将抽样的 n n n个样本按从小到大排序,样本 p p p分位数就是排在第 n × p n\times p n×p位的样品值
# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
np.percentile找到一组数的分位数值
x_low = np.percentile(x_i,25) # 计算样本下四分位数
x_high = np.percentile(x_i,75) # 计算样本上四分位数
print("样本下四分位数为:",x_low)
print("样本上四分位数为:",x_high)
x_mid = np.median(x_i)
计算沿指定轴的中位数
- (a)假设总体为 X X X,为了方便起见, X X X取1~20;
- (b)对 X X X抽取10个样本,计算10个样本的样本中位数;
- (c)重复(b)步骤10次,20次,100次,1000次,10000次,100000次,观察样本中位数的分布;
def GetMidDist(n, X):
x_mid_list = []
for i in range(n):
x_i = np.random.choice(X, 10, replace=False)
x_mid = np.median(x_i)
x_mid_list.append(x_mid)
plt.hist(x_mid_list,color='blue',alpha=0.6,density=True)
plt.xlabel("x")
plt.ylabel("频率 p")
plt.title("n="+str(n))
plt.show()
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X, size=20
GetMidDist(5, X)
GetMidDist(10, X)
GetMidDist(20, X)
GetMidDist(100, X)
GetMidDist(1000, X)
GetMidDist(10000, X)
GetMidDist(100000, X)
样本分位数的抽样分布的渐近分布为正态分布
设总体密度函数为
p
(
x
)
,
x
p
p(x), x_{p}
p(x),xp 为其
p
p
p 分位数,
p
(
x
)
p(x)
p(x) 在
x
p
x_{p}
xp 处连续且
p
(
x
p
)
>
p\left(x_{p}\right)>
p(xp)> 0 , 则当
n
→
∞
n \rightarrow \infty
n→∞ 时样本
p
p
p 分位数
m
p
m_{p}
mp 的渐近分布为
N
(
x
p
,
p
(
1
−
p
)
n
⋅
p
2
(
x
p
)
)
N\left(x_{p}, \frac{p(1-p)}{n \cdot p^{2}\left(x_{p}\right)}\right)
N(xp,n⋅p2(xp)p(1−p))
特别地, 对于样本中位数来说, 当
n
→
∞
n \rightarrow \infty
n→∞ 时有
N
(
x
0.5
,
1
4
n
⋅
p
2
(
x
0.5
)
)
N\left(x_{0.5}, \frac{1}{4 n \cdot p^{2}\left(x_{0.5}\right)}\right)
N(x0.5,4n⋅p2(x0.5)1)
卡方统计量与卡方分布
假设
x
1
,
x
2
,
.
.
.
x
n
x_1,x_2,...x_n
x1,x2,...xn是标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1)为总体抽样的得到的样本(
x
1
,
x
2
,
.
.
.
x
n
x_1,x_2,...x_n
x1,x2,...xn独立同分布于
N
(
0
,
1
)
N(0,1)
N(0,1)),则
χ
2
=
x
1
2
+
x
2
2
+
⋯
+
x
n
2
\chi^{2}=x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}
χ2=x12+x22+⋯+xn2
的分布为自由度为n的
χ
2
\chi^{2}
χ2分布,简称
χ
2
∼
χ
2
(
n
)
\chi^{2} \sim \chi^{2}(n)
χ2∼χ2(n),
χ
2
\chi^{2}
χ2分布的密度函数为:
p
(
y
)
=
(
1
/
2
)
n
2
Γ
(
n
/
2
)
y
n
2
−
1
e
−
y
2
,
y
>
0
p(y)=\frac{(1 / 2)^{\frac{n}{2}}}{\Gamma(n / 2)} y^{\frac{n}{2}-1} \mathrm{e}^{-\frac{y}{2}}, \quad y>0
p(y)=Γ(n/2)(1/2)2ny2n−1e−2y,y>0
记住卡方分布:
n
n
n个标准正态分布的平方和服从自由度为
n
n
n的卡方分布。
自由度:可以自由变化的变量个数
画出不同自由度
n
n
n下的密度函数图:
# 使用scipy计算pdf画图(非自定义函数)
from scipy.stats import chi2
# chi2卡方统计量
x = np.linspace(0.01,30,10000)
plt.plot(x, chi2.pdf(x,df=4),'r-', lw=5, alpha=0.6, label='chi2(4)',c='red')
plt.plot(x, chi2.pdf(x,df=6),'r-', lw=5, alpha=0.6, label='chi2(6)',c='blue')
plt.plot(x, chi2.pdf(x,df=10),'r-', lw=5, alpha=0.6, label='chi2(10)',c='orange')
plt.xlabel("X")
plt.ylabel("p (x)")
plt.legend()
plt.show()
# 使用卡方分布的定义演示卡方分布
from scipy.stats import norm
n = 10
chi2_list = []
for i in range(100000):
x_i = norm.rvs(loc=0,scale=1,size=10)
chi2_T = np.sum(np.square(x_i))
chi2_list.append(chi2_T)
sns.distplot(chi2_list,color='blue')
plt.xlabel("x")
plt.ylabel("频率 p")
plt.title("n="+str(n))
plt.show()
#该密度函数的图像是取非负值的偏态分布, 其数学期望等于自由度n, 方差等于 2 倍自由度即2n,
自由度越大越缓
Connection
在正态分布总体假设下,样本方差经过变换可以与卡方分布产生关系,具体来说就是:
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 是来自正态总体
N
(
μ
,
σ
2
)
N\left(\mu, \sigma^{2}\right)
N(μ,σ2) 的样本, 其样本均值和样本方差分别为
x
ˉ
=
1
n
∑
i
=
1
n
x
i
和
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
,
\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} \text { 和 } s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2},
xˉ=n1i=1∑nxi 和 s2=n−11i=1∑n(xi−xˉ)2,
那么,
(
n
−
1
)
s
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)
σ2(n−1)s2∼χ2(n−1)。
(2.2)F统计量与F分布:
设随机变量
X
1
∼
χ
2
(
m
)
,
X
2
∼
χ
2
(
n
)
,
X
1
X_{1} \sim \chi^{2}(m), X_{2} \sim \chi^{2}(n), X_{1}
X1∼χ2(m),X2∼χ2(n),X1 与
X
2
X_{2}
X2 独立, 则称
F
=
X
1
/
m
X
2
/
n
F=\frac{X_{1} / m}{X_{2} / n}
F=X2/nX1/m 的分布是自由度为
m
m
m 与
n
n
n 的
F
F
F 分布, 记为
F
∼
F
(
m
,
n
)
F \sim F(m, n)
F∼F(m,n), 其中
m
m
m 称为分子自由度,
n
n
n 称为分母自由度。F分布的密度函数为:
p
F
(
y
)
=
Γ
(
m
+
n
2
)
(
m
n
)
m
2
y
m
2
−
1
(
1
+
m
n
y
)
−
m
+
n
2
Γ
(
m
2
)
Γ
(
n
2
)
⋅
\begin{aligned} p_{F}(y) &=\frac{\Gamma\left(\frac{m+n}{2}\right)\left(\frac{m}{n}\right)^{\frac{m}{2}} y^{\frac{m}{2}-1}\left(1+\frac{m}{n} y\right)^{-\frac{m+n}{2}}}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \cdot \end{aligned}
pF(y)=Γ(2m)Γ(2n)Γ(2m+n)(nm)2my2m−1(1+nmy)−2m+n⋅
# 使用scipy与matplotlib绘制不同的m,n下的F分布的密度函数
from scipy.stats import f
x = np.linspace(0.01,5,10000)
plt.plot(x, f.pdf(x,4,4000),'r-', lw=5, alpha=0.6, label='F(4,4000)',c='red')
plt.plot(x, f.pdf(x,4,10),'r-', lw=5, alpha=0.6, label='F(4,10)',c='blue')
plt.plot(x, f.pdf(x,4,4),'r-', lw=5, alpha=0.6, label='F(4,4)',c='orange')
plt.plot(x, f.pdf(x,4,1),'r-', lw=5, alpha=0.6, label='F(4,1)',c='yellow')
plt.xlabel("X")
plt.ylabel("p (x)")
plt.legend()
plt.show()
# 使用F统计量的定义演示:
from scipy.stats import norm
m,n = 4,4000
F_list = []
for i in range(100000):
chi2_m_sample = np.sum(np.square(norm.rvs(loc=0,scale=1,size=m))) # 卡方m统计量
chi2_n_sample = np.sum(np.square(norm.rvs(loc=0,scale=1,size=n))) # 卡方n统计量
F_T = (chi2_m_sample/m) / (chi2_n_sample/n) # # F(m,n)统计量
F_list.append(F_T)
sns.distplot(F_list,color='blue')
plt.xlabel("x")
plt.ylabel("频率 p")
plt.title("F(4,4000)")
plt.show()
Connection
F分布的密度函数的图像是一个只取非负值的偏态分布。接下来,我们来看看之前学过的样本均值和样本方差与F分布的联系:
设
x
1
,
x
2
,
⋯
,
x
m
x_{1}, x_{2}, \cdots, x_{m}
x1,x2,⋯,xm 是来自
N
(
μ
1
,
σ
1
2
)
N\left(\mu_{1}, \sigma_{1}^{2}\right)
N(μ1,σ12) 的样本,
y
1
,
y
2
,
⋯
,
y
n
y_{1}, y_{2}, \cdots, y_{n}
y1,y2,⋯,yn 是来自
N
(
μ
2
,
σ
2
2
)
N\left(\mu_{2}, \sigma_{2}^{2}\right)
N(μ2,σ22) 的样本, 且此两样本相互独立, 记:
s
x
2
=
1
m
−
1
∑
i
=
1
m
(
x
i
−
x
ˉ
)
2
,
s
y
2
=
1
n
−
1
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
,
s_{x}^{2}=\frac{1}{m-1} \sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2}, \quad s_{y}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2},
sx2=m−11i=1∑m(xi−xˉ)2,sy2=n−11i=1∑n(yi−yˉ)2,
其中
x
ˉ
=
1
m
∑
i
=
1
m
x
i
,
y
ˉ
=
1
n
∑
i
=
1
n
y
i
,
\bar{x}=\frac{1}{m} \sum_{i=1}^{m} x_{i}, \quad \bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i},
xˉ=m1i=1∑mxi,yˉ=n1i=1∑nyi,
则有
F
=
s
x
2
/
σ
1
2
s
y
2
/
σ
2
2
∼
F
(
m
−
1
,
n
−
1
)
F=\frac{s_{x}^{2} / \sigma_{1}^{2}}{s_{y}^{2} / \sigma_{2}^{2}} \sim F(m-1, n-1)
F=sy2/σ22sx2/σ12∼F(m−1,n−1)
特别, 若
σ
1
2
=
σ
2
2
\sigma_{1}^{2}=\sigma_{2}^{2}
σ12=σ22, 则
F
=
s
x
2
/
s
y
2
∼
F
(
m
−
1
,
n
−
1
)
F=s_{x}^{2} / s_{y}^{2} \sim F(m-1, n-1)
F=sx2/sy2∼F(m−1,n−1)。
t分布及其统计量:
设随机变量 X 1 X_{1} X1 与 X 2 X_{2} X2 独立且 X 1 ∼ N ( 0 , 1 ) , X 2 ∼ χ 2 ( n ) X_{1} \sim N(0,1), X_{2} \sim \chi^{2}(n) X1∼N(0,1),X2∼χ2(n), 则称 t = X 1 X 2 / n t=\frac{X_{1}}{\sqrt{X_{2} / n}} t=X2/nX1 的分布为自由度为 n n n 的 t t t 分布, 记为 t ∼ t ( n ) t \sim t(n) t∼t(n)。
# 使用scipy与matplotlib绘制不同的n下的t分布的密度函数
from scipy.stats import t
from scipy.stats import norm
x = np.linspace(-6,6,10000)
plt.plot(x, t.pdf(x,4),'--', lw=5, alpha=0.6, label='t (4)',c='red')
plt.plot(x, norm.pdf(x,loc=0,scale=1),'r-', lw=5, alpha=0.6, label='N (0,1)',c='yellow')
plt.plot(x, t.pdf(x,100),'--', lw=5, alpha=0.6, label='t (100)',c='blue')
plt.xlabel("X")
plt.ylabel("p (x)")
plt.legend()
plt.show()
可以看到:当自由度较大 ( ( ( 如 n ⩾ 30 ) n \geqslant 30) n⩾30) 时, t t t 分布可以用 N ( 0 , 1 ) N(0,1) N(0,1) 分布近似。下面,我们使用样本均值和样本方差构造t统计量:
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 是来自正态分布
N
(
μ
,
σ
2
)
N\left(\mu, \sigma^{2}\right)
N(μ,σ2) 的一个样本,
x
ˉ
\bar{x}
xˉ 与
s
2
s^{2}
s2 分别是该样本的样本均值与样本方差, 则有
t
=
n
(
x
ˉ
−
μ
)
s
∼
t
(
n
−
1
)
t=\frac{\sqrt{n}(\bar{x}-\mu)}{s} \sim t(n-1)
t=sn(xˉ−μ)∼t(n−1)
t分布用于少量数据的统计分析
参数估计之点估计的概念
估计:通过样本统计量对总体分布的未知参数进行估计。
估计的方法有点估计与区间估计,点估计希望使用一个数估计总体中的位置参数,如 μ = 0 \mu = 0 μ=0就是指使用一个数0去估计总体中的参数 μ \mu μ,而0是由抽样后计算某个样本统计量得来的。换句话说,区间估计指的是使用一个区间估计总体中的参数,区间估计解决了点估计无法评价估计的精度的问题,这点我们在后面详细看,我们先学习点估计。
设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是来自总体的一个样本, 用于估计未知参数 θ \theta θ 的统计量 θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^=θ^(x1,x2,⋯,xn) 称为 θ \theta θ 的估计量, 或称为 θ \theta θ 的点估计, 简称估计。
参数估计之点估计的方法:矩估计
1. 总体矩和中心矩
对于一个随机变量X来说,随机变量X的矩可以分为原点矩和中心矩,具体来说:
设
X
X
X 为随机变量,
k
k
k 为正整数。 如果以下的数学期望都存在, 则称
μ
k
=
E
(
X
k
)
\mu_{k}=E\left(X^{k}\right)
μk=E(Xk)
为
X
X
X 的
k
k
k 阶原点矩。 称
ν
k
=
E
(
X
−
E
(
X
)
)
k
\nu_{k}=E(X-E(X))^{k}
νk=E(X−E(X))k
为
X
X
X 的
k
k
k 阶中心矩。
随机变量的原点矩刻画了随机变量 X X X偏离原点 ( 0 , 0 ) (0,0) (0,0)的程度,而中心矩描述了随机变量 X X X偏离“中心”的程度
样本矩
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 是样本,
k
k
k 为正整数, 则统计量
a
k
=
1
n
∑
i
=
1
n
x
i
k
a_{k}=\frac{1}{n} \sum_{i=1}^{n} x_{i}^{k}
ak=n1i=1∑nxik
称为样本
k
k
k 阶原点矩。 特别地, 样本一阶原点矩就是样本均值。 统计量
b
k
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
k
b_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{k}
bk=n1i=1∑n(xi−xˉ)k
称为样本
k
k
k 阶中心矩。 特别地, 样本二阶中心矩就是样本方差。
# 假设总体是标准正态分布,求3阶原点矩和中心矩
from scipy.stats import norm
x_i = norm.rvs(loc=0, scale=1, size=10000)
a3 = np.mean(np.power(x_i,3))
b3 = np.mean(np.power((x_i-np.mean(x_i)), 3))
print("3阶原点矩:",a3)
print("3阶中心矩:",b3)
(2)矩估计
原理:格利纹科定理:使用经验分布函数替换总体分布。
替换原理就是矩估计,如:使用样本均值
x
ˉ
\bar{x}
xˉ估计总体均值
E
(
X
)
E(X)
E(X)、使用样本方差
s
2
s^2
s2估计总体方差
V
a
r
(
X
)
Var(X)
Var(X)、用事件的频率估计事件的概率、使用样本分位数估计总体分位数等
【例子】假设总体服从指数分布,其密度函数为
p
(
x
;
λ
)
=
λ
e
−
λ
x
,
x
⩾
0
p(x ; \lambda)=\lambda \mathrm{e}^{-\lambda x}, \quad x \geqslant 0
p(x;λ)=λe−λx,x⩾0
从该总体中抽样1000个样本,估计总体分布的参数
λ
\lambda
λ。
解:
k
=
1
k=1
k=1, 由于
E
(
X
)
=
1
/
λ
E(X)=1 / \lambda
E(X)=1/λ,即
λ
=
1
/
E
(
X
)
\lambda=1 / E(X)
λ=1/E(X),因此,
λ
\lambda
λ的矩估计为:
λ
^
=
1
x
ˉ
\hat{\lambda}=\frac{1}{\bar{x}}
λ^=xˉ1
# 假设真实值lambda = 5
from scipy.stats import expon
real_lmd = 5
x_i = np.random.exponential(scale=1/real_lmd, size=1000)
print("矩估计为:",1/np.mean(x_i))
参数估计之点估计的方法:极大似然估计
极大似然估计就是利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值
# 使用sympy演示极大似然估计的案例
from sympy import *
p = Symbol('p') #定义总体参数
P_p = p**7*(1-p)**3 # 定义似然函数
lnP_p = ln(P_p) # 化简为对数似然
d_ln_P = diff(lnP_p, p) # 求导函数
p_hat = solve(d_ln_P, p) # 导函数为0
print("p的极大似然估计为:",p_hat)
:对正态总体
N
(
μ
,
σ
2
)
,
θ
=
(
μ
,
σ
2
)
N\left(\mu, \sigma^{2}\right), \theta=\left(\mu, \sigma^{2}\right)
N(μ,σ2),θ=(μ,σ2) 是二维参数, 设有样本
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn,求总体参数
μ
\mu
μ和
σ
2
\sigma^2
σ2。
L
(
μ
,
σ
2
)
=
∏
i
=
1
n
(
1
2
π
σ
exp
{
−
(
x
i
−
μ
)
2
2
σ
2
}
)
=
(
2
π
σ
2
)
−
n
/
2
exp
{
−
1
2
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
}
ln
L
(
μ
,
σ
2
)
=
−
1
2
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
2
−
n
2
ln
σ
2
−
n
2
ln
(
2
π
)
\begin{aligned} L\left(\mu, \sigma^{2}\right)=& \prod_{i=1}^{n}\left(\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right\}\right)=\left(2 \pi \sigma^{2}\right)^{-n / 2} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}\right\} \\ & \ln L\left(\mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{n}{2} \ln \sigma^{2}-\frac{n}{2} \ln (2 \pi) \end{aligned}
L(μ,σ2)=i=1∏n(2πσ1exp{−2σ2(xi−μ)2})=(2πσ2)−n/2exp{−2σ21i=1∑n(xi−μ)2}lnL(μ,σ2)=−2σ21i=1∑n(xi−μ)2−2nlnσ2−2nln(2π)
为了求解对数似然函数的最大化,需要
l
n
L
(
μ
,
σ
2
)
ln L(\mu, \sigma^2)
lnL(μ,σ2)对
μ
\mu
μ和
σ
2
\sigma^2
σ2求偏导函数,然后求偏导函数的零点。
∂
ln
L
(
μ
,
σ
2
)
∂
μ
=
1
σ
2
∑
i
=
1
n
(
x
i
−
μ
)
=
0
∂
ln
L
(
μ
,
σ
2
)
∂
σ
2
=
1
2
σ
4
∑
i
=
1
n
(
x
i
−
μ
)
2
−
n
2
σ
2
=
0.
\begin{gathered} \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)=0 \\ \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{n}{2 \sigma^{2}}=0 . \end{gathered}
∂μ∂lnL(μ,σ2)=σ21i=1∑n(xi−μ)=0∂σ2∂lnL(μ,σ2)=2σ41i=1∑n(xi−μ)2−2σ2n=0.
解这个方程组,就可以得到:
μ
^
=
1
n
∑
i
=
1
n
x
i
=
x
ˉ
\hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x}
μ^=n1i=1∑nxi=xˉ
和
σ
^
2
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
=
s
n
2
\hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=s_{n}^{2}
σ^2=n1i=1∑n(xi−xˉ)2=sn2
正态分布的 μ \mu μ和 σ 2 \sigma^2 σ2的极大似然估计竟然是样本均值 x ˉ \bar{x} xˉ和有偏样本方差 s n 2 s_n^2 sn2,这就将我们的估计与统计量连接起来了。一般来说,估计的结果都与从该分布抽样的样本组成的样本统计量有关,如样本均值 x ˉ \bar{x} xˉ样本方差 s 2 s^2 s2
参数估计之点估计的评价:无偏性与有效性
1. 无偏性
使用某个统计量估计总体参数时,由于样本具有随机性,统计量始终与总体参数有一定的差距,这种差距时而偏大,时而偏小,但是平均起来统计量与总体参数之间的差距为0。可以想像成一个箭靶,箭靶中心是总体参数,我们最想要的就是一击必中靶心,但是由于各种因素,我们每次实际的射击(统计量)与实际靶心有一定的差距,有时射出的箭位于靶心上方,有时射出的箭位于靶心的下方,但是平均起来这种差距会被抵消为0。即:
设
θ
^
=
θ
^
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right)
θ^=θ^(x1,x2,⋯,xn) 是
θ
\theta
θ 的一个估计,
θ
\theta
θ 的参数空间为
Θ
\Theta
Θ, 若对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
E
θ
(
θ
^
)
=
θ
,
E_{\theta}(\hat{\theta})=\theta,
Eθ(θ^)=θ,
则称
θ
^
\hat{\theta}
θ^ 是
θ
\theta
θ 的无偏估计, 否则称为有偏估计。
2)有效性:
对于同一个总体参数的估计统计量的构造方式多种多样,同时对于同一个总体参数的无偏估计也有很多个统计量进行估计,因此如何从众多的无偏估计统计量中选择合适的统计量估计总体参数呢?其实,最直观的方式是:如果该统计量围绕总体分布的参数值波动越小越好,因此波动越小,由于随机性导致的统计量每次估计总体分布参数时不会差别太大。波动可以使用方差来衡量,因此应该选择无偏估计的统计量中方差最小的统计量作为最有效的统计量。具体来说:
设
θ
^
1
,
θ
^
2
\hat{\theta}_{1}, \hat{\theta}_{2}
θ^1,θ^2 是
θ
\theta
θ 的两个无偏估计, 如果对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ 有
Var
(
θ
^
1
)
⩽
Var
(
θ
^
2
)
,
\operatorname{Var}\left(\hat{\theta}_{1}\right) \leqslant \operatorname{Var}\left(\hat{\theta}_{2}\right),
Var(θ^1)⩽Var(θ^2),
且至少有一个
θ
∈
Θ
\theta \in \Theta
θ∈Θ 使得上述不等号严格成立, 则称
θ
^
1
\hat{\theta}_{1}
θ^1 比
θ
^
2
\hat{\theta}_{2}
θ^2 有效。
8.参数估计之区间估计(了解)
参数的点估计是使用一个具体的数值(统计量)估计总体分布的参数值,这样做的有点就是方便计算与方便使用,但是点估计的精度如何,点估计本身是无法回答的。解决这个问题一个比较复杂的是方法是:构造统计量的分布,即抽样分布,然后使用一个区间估计总体分布的参数,这就是区间估计。设 θ \theta θ 是总体的一个参数, x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是抽样的样本, 区间估计就是要找到两个统计量 θ ^ L = θ ^ L ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}_{L}=\hat{\theta}_{L}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^L=θ^L(x1,x2,⋯,xn) 和 θ ^ U = θ ^ U ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}_{U}=\hat{\theta}_{U}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^U=θ^U(x1,x2,⋯,xn), 使得 θ ^ L < θ ^ U \hat{\theta}_{L}<\hat{\theta}_{U} θ^L<θ^U, 在得到样本观测值之后, 就把 θ \theta θ 估计在区间 [ θ ^ L , θ ^ V ] \left[\hat{\theta}_{L}, \hat{\theta}_{V}\right] [θ^L,θ^V] 内。 样本是具有随机性的, 区间 [ θ ^ L , θ ^ V ] \left[\hat{\theta}_{L}, \hat{\theta}_{V}\right] [θ^L,θ^V] 盖住未知参数 θ \theta θ 的可能性并不确定, 人们通常要求区间 [ θ ^ L , θ ^ v ] \left[\hat{\theta}_{L}, \hat{\theta}_{v}\right] [θ^L,θ^v] 盖住 θ \theta θ 的概率 P ( θ ^ L ⩽ θ ⩽ θ ^ U ) P\left(\hat{\theta}_{L} \leqslant \theta \leqslant \hat{\theta}_{U}\right) P(θ^L⩽θ⩽θ^U) 尽可能大, 但是只要无限增大区间的范围就好了,然后区间越小是估计得越好的。 为解决此矛盾,把区间 [ θ ^ L , θ ^ V ] \left[\hat{\theta}_{L}, \hat{\theta}_{V}\right] [θ^L,θ^V] 盖住 θ \theta θ 的概率 ( 以后称为置信 水平) 事先给定。下面给出区间估计的完整概念(如果看不懂可以直接看例子):
设
θ
\theta
θ 是总体的一个参数,其参数空间为
Θ
,
x
1
,
x
2
,
⋯
,
x
n
\Theta, x_{1}, x_{2}, \cdots, x_{n}
Θ,x1,x2,⋯,xn 是来自该总体的样本, 对给定的一个
α
(
0
<
α
<
1
)
\alpha(0<\alpha<1)
α(0<α<1), 假设有两个统计量
θ
^
L
=
θ
^
L
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat{\theta}_{L}=\hat{\theta}_{L}\left(x_{1}, x_{2}, \cdots, x_{n}\right)
θ^L=θ^L(x1,x2,⋯,xn) 和
θ
^
U
=
\hat{\theta}_{U}=
θ^U=
θ
^
U
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat{\theta}_{U}\left(x_{1}, x_{2}, \cdots, x_{n}\right)
θ^U(x1,x2,⋯,xn), 若对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
P
θ
(
θ
^
L
⩽
θ
⩽
θ
^
U
)
⩾
1
−
α
,
P_{\theta}\left(\hat{\theta}_{L} \leqslant \theta \leqslant \hat{\theta}_{U}\right) \geqslant 1-\alpha,
Pθ(θ^L⩽θ⩽θ^U)⩾1−α,
则称随机区间
[
θ
^
L
,
θ
^
V
]
\left[\hat{\theta}_{L}, \hat{\theta}_{V}\right]
[θ^L,θ^V] 为
θ
\theta
θ 的置信水平为
1
−
α
1-\alpha
1−α 的置信区间,或简称
[
θ
^
L
,
θ
^
V
]
\left[\hat{\theta}_{L}, \hat{\theta}_{V}\right]
[θ^L,θ^V] 是
θ
\theta
θ 的
1
−
α
1-\alpha
1−α 置信区间,
θ
^
L
\hat{\theta}_{L}
θ^L 和
θ
^
U
\hat{\theta}_{U}
θ^U 分别称为
θ
\theta
θ 的 (双侧) 置信下限和置信上限。
构造置信区间
枢轴量法;简便方法可以选择bootstrap方法
通过某个统计量T估计总体参数,置信水平为
1
−
α
1-\alpha
1−α。从总体中抽样
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn,我们只需要在样本中继续抽样(重抽样),每次抽样计算一次统计量T,这样就可以构造一个抽样分布,取抽样分布的
α
2
\frac{\alpha}{2}
2α分位数点和
1
−
α
2
1-\frac{\alpha}{2}
1−2α分位数点作为区间左右边界即可。
# 使用bootstrap方法计算N(0,1)的mu的置信区间:样本量为1000,重抽样样本量为500, 重抽样的次数为100000次
T_list = []
N, N_re = 1000, 500
total_times = 10000
alpha = 0.05
x_i = np.random.randn(N) # 抽样1000个
for i in range(total_times):
x_re = np.random.choice(x_i, N_re, replace=True) # 从样本中重抽样
T = np.mean(x_re)
T_list.append(T)
left = np.percentile(np.array(T_list), 100*alpha/2)
right = np.percentile(np.array(T_list), 100*(1-alpha/2))
print("正态总体的mu的置信区间为:["+str(left)+", "+str(right)+"]")
(九) 假设检验之基本思想
(1) 假设检验的基本概念
假设检验是对某一个说法做出检验,提出这个说法是正确还是错误。
(2) 假设检验的步骤:
(2.1)建立假设:
H
0
:
θ
∈
Θ
0
vs
H
1
:
θ
∈
Θ
1
H_{0}: \theta \in \Theta_{0} \quad \text{vs} \quad H_{1}: \theta \in \Theta_{1}
H0:θ∈Θ0vsH1:θ∈Θ1
(2.2)选择统计量并给出拒绝域的形式
问题的原假设 H 0 H_0 H0与备择假设 H 1 H_1 H1是关于总体的假设,我们需要使用样本信息推断总体的假设是否是正确的,老套路就是使用统计量将所有样本的信息汇总成一个具体的数值,如: x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn浓缩成 x ˉ \bar{x} xˉ。我们可以想像成有两个空间,一个能让我们通过样本信息拒绝原假设的拒绝域 W W W,另一个是让我们通过样本信息接受原假设的接受域 W ˉ \bar{W} Wˉ,拒绝域 W W W和接受域 W ˉ \bar{W} Wˉ都是可以通过样本信息构造出来的。因此,如果(检验)统计量落在拒绝域 W W W则拒绝原假设,相反如果落在接受域 W ˉ \bar{W} Wˉ则接受原假设,但是拒绝域 W W W和接受域 W ˉ \bar{W} Wˉ的构造方式目前还未知!接下来,我们使用上述的例子构造拒绝域:
由于我们的原假设是正态总体的数学期望
θ
≥
1
\theta \ge 1
θ≥1,因此样本均值
x
ˉ
\bar{x}
xˉ是一个不错的统计量。如果正态总体的数学期望
θ
\theta
θ越大,
x
ˉ
\bar{x}
xˉ越大则支持原假设的力度就会越大,反之
x
ˉ
\bar{x}
xˉ越小则越拒绝原假设。因此,当
x
ˉ
\bar{x}
xˉ小到一定的程度,就拒绝原假设,拒绝域的形式也随之出来:
W
=
{
(
x
1
,
x
2
,
⋯
,
x
n
)
:
x
ˉ
⩽
c
}
=
{
x
ˉ
⩽
c
}
W=\left\{\left(x_{1}, x_{2}, \cdots, x_{n}\right): \bar{x} \leqslant c\right\}=\{\bar{x} \leqslant c\}
W={(x1,x2,⋯,xn):xˉ⩽c}={xˉ⩽c}
其中,
c
c
c是未确定的。
当拒绝域确定以后,如果某次的样本统计量位于拒绝域
W
W
W则拒绝原假设,如果某次的统计量位于接受域
W
ˉ
\bar{W}
Wˉ则接受原假设。
(2.3)选择显著性水平:
某次抽样的样本统计量可能会位于拒绝域,也有可能位于接受域。换句话说,由于样本的随机性,该次检验可能会犯错
能不能同时减少两类错误的概率呢?答案是不能,这两类错误相互制约,一类错误的增加必然减少另一类错误的减少。因此,我们选择仅限制一类错误发生的概率,如:令
α
(
θ
)
=
α
≤
0.05
\alpha(\theta) = \alpha \le 0.05
α(θ)=α≤0.05
(2.4)给出拒绝域:
假设检验的一般步骤
- 建立原假设于备择假设;
- 选择合适的统计量解决检验问题;
- 写出拒绝域的形式和显著性水平(一类错误的概率 α \alpha α);
- 计算拒绝域边界的统计量分布的分位数;
- 观察统计量值是否位于拒绝域,位于拒绝域则拒绝原假设,否则接受原假设。
假设检验之正态总体参数的假设检验
- 单个正态总体均值的检验
- (a) σ = σ 0 \sigma=\sigma_{0} σ=σ0 已知时的 u u u 检验:
- (b) σ \sigma σ未知的单样本t检验:
- 两个正态总体均值差的检验
- (a) σ 1 , σ 2 \sigma_{1}, \sigma_{2} σ1,σ2 已知时的两样本 u u u 检验:
- (b) σ \sigma σ 未知时的两样本 t t t 检验:
- 正态总体方差的检验
- (a)单个正态总体方差的 χ 2 \chi^{2} χ2 检验:
- (b)两个正态总体方差比的 F F F 检验:
假设检验之似然比检验与Bootstrap方法
https://github.com/Git-Model/init_Modeling/blob/main/%E6%A6%82%E7%8E%87%E8%AE%BA%E4%B8%8E%E6%95%B0%E7%90%86%E7%BB%9F%E8%AE%A1/TASK4_%E6%95%B0%E7%90%86%E7%BB%9F%E8%AE%A1.ipynb