Day04-概率论与数理统计-数理统计(DataWhale)

最新推荐文章于 2024-10-16 23:02:04 发布

liying_tt

最新推荐文章于 2024-10-16 23:02:04 发布

阅读量266

点赞数

分类专栏：数学基础文章标签：概率论

本文链接：https://blog.csdn.net/liying_tt/article/details/121143027

版权

数学基础专栏收录该内容

17 篇文章 0 订阅

订阅专栏

八、样本及抽样分布

8.1 总体与样本

总体：个体、总体分布
样本：抽样、样本变量、样本观测值
抽样：简单随机抽样【独立同分布】
样本的分布：

变量： $X_1,X_2,...,X_n)$

分布： $F(x_1,x_2,...,x_n)=F(x_1)F(x_2)···F(x_n)$

离散型： $P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2)···P(X_n=x_n)$

概率密度函数： $f(x_1,x_2,...,x_n)=f(x_1)f(x_2)···f(x_n)$

8.2 统计量

定义： 不含任何未知参数的样本函数

常见统计量

样本均值： $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$
未修正的样本方差： $S_0^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2$
样本方差： $S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{n}{n-1}S_0^2$
样本标准差
样本k阶原点矩： $A_k=\frac{1}{n}\sum_{i=1}^nX_i^k$
样本k阶中心矩： $B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k$
协方差
相关系数

8.3 样本均值和方差

总体 $X$ 的均值 $EX=\mu$ ，方差 $DX=\sigma^2$ ，样本 $X_1,X_2,...,X_n)$ 来自总体 $X$ ，则

$E\overline{X}=\mu$
$D\overline{X}=\frac{1}{n}\sigma^2$
$ES^2=\sigma^2$

8.4 抽样分布

统计量的分布

8.4.1 $\chi^2$ 分布

在这里插入图片描述

$n$ 越大，峰谷越向右移动，在n-2时取最大值

定理： $X_1,X_2,...,X_n$ 相互独立， $X_i \sim N(0,1)$ $\Longrightarrow$ $\sum_{i=1}^nX_i^2 \sim \chi^2(n) =\Gamma(\frac{n}{2},n)$

由中心极限定理： $X\sim \chi^2(n)，n$ 充分大， $\frac{X-n}{\sqrt{2n}}\sim N(0,1)$

性质：

$\sim \chi^2(n),Y\sim \chi^2(m),X与Y独立，则：X+Y \sim \chi^2(m+n)$
$X_i \sim \chi^2(m_i) \Longrightarrow \sum_{i=1}^n X_i\sim \chi^2(\sum_{i=1}^n m_i)$

上 $\alpha$ 分位数： $P(\chi^2>\chi^2_\alpha(n))=\alpha$

【 $\chi^2_\alpha(n)$ 是一个点， $\alpha$ 是面积，整体表示大于 $\chi^2_\alpha(n)$ 这个点的面积是 $\alpha$ 】

8.4.2 t分布

在这里插入图片描述

$n\geq 30$ 与正态分布差别很小，t分布对称性

定理： $\sim N(0,1) , Y\sim\chi^2(n)$ ,且 $X, Y$ 独立，则 $t=\frac{X}{\sqrt{Y/n}}\sim t(n)$

t分布的上 $\alpha$ 分位数： $P(t>t_{\alpha}(n))=\alpha$ 对称性 $\Longrightarrow$ $t_{1-\alpha}(n)=-t_{\alpha}(n)$

8.4.3 F分布

在这里插入图片描述

定理： $X\sim \chi^2(n_1),Y\sim \chi^2(n_2),X与Y独立$ ，则 $F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2)$

【 $\frac{1}{F}\sim F(n_2,n_1)$ 】

F分布的上 $\alpha$ 分位数： $P(F>F_{\alpha}(n_1,n_2)=\alpha)$ $\Longrightarrow$ $F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}$

8.4.4 正态总体下的抽样分布

总体是正态分布，抽取样本后构造的统计量的分布

定理1：【一个正态总体】 $X\sim N(\mu,\sigma^2),\{X_1,X_2,...,X_n\}$ 是来自 $X$ 的一个样本, 样本均值： $\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i$ , 样本方差： $S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$

$\overline{X}\sim N(\mu,\frac{\sigma^2}{n}) \Longrightarrow \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)$
$\frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}\sim \chi^2(n-1)$
$\overline{X}与S$ 独立
$\frac{\sum_{i=1}^n(X_i-\mu)^2}{\sigma^2}\sim \chi^2(n)$
$\frac{\overline{X}-\mu}{S}\sqrt{n} \sim t(n-1)$

定理2：【两个正态总体】 $\sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$ ${X_1,X_2,...,X_{n_1}\}$ 来自 $X$ ，样本均值是 $\overline{X}$ ，样本方差是 $S_1^2$ ， ${Y_1,Y_2,...,Y_{n_2}\}$ 来自 $Y$ ，样本均值是 $\overline{Y}$ ，样本方差是 $S_2^2$

$\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$

【 $\overline{X}\sim N(\mu_1,\frac{\sigma_1^2}{n_1}),\overline{Y}\sim N(\mu_2,\frac{\sigma_2^2}{n_2}),\overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$ 】

$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$
$\sigma_1^2=\sigma_2^2=\sigma^2时$ ， $\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)$ 其中， $S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$

九、参数估计

参数空间：参数取值范围

9.1 点估计

$\hat{\theta} =\hat{\theta}(X_1,X_2,...,X_n)$

9.1.1 矩估计

用样本的矩代替整体的矩
$\begin{array}{c|c|c} \hline 阶数 & 总体的矩 & 样本的矩 \\\hline 一阶 & EX & \overline{X}=\frac{1}{n}\sum X_i \\ 二阶 & EX^2 & A_2=\frac{1}{n}\sum X_i^2 \\ \hline \end{array}$
二阶：【 $DX=EX^2-(EX)^2$ 】

二阶中心矩： $B_2=\frac{1}{n}\sum (X_i-\overline{X})^2$

$\sim N(\mu,\sigma^2),\mu和\sigma^2未知，则\hat{\mu}=\overline{X},\hat{\sigma^2}=\frac{1}{n}\sum (X_i-\overline{X})^2=B_2$

9.1.2 极大似然估计

概率大的事件比概率小的事件更容易发生，将使A发生的概率最大的参数值作为估计值。

例题：

总体 $X\sim p(\lambda),(X_1,X_2,...,X_n)$ 为样本，求 $\lambda$ 的极大似然估计

解：

总体的概率密度函数 $P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}(k=0,1,2,...)$

则 $\lambda$ 的极大似然函数为： $L(\lambda)=\prod_{i=1}^n\frac{\lambda^{x_i}}{{x_i}!}e^{-\lambda}=\frac{\lambda^{x_1+x_2+...+x_n}}{\prod_{i=1}^nx_i!}e^{-n\lambda}$ 【 $x_i$ 为已知的观测值】

两边取 $l n$ ： $lnL(\lambda)=(x_1+x_2+...+x_n)ln\lambda-n\lambda-\prod_{i=1}^nx_i!$

两边对 $\lambda$ 求导： $\frac{dln(\lambda)}{d\lambda}=\frac{x_1+x_2+...+x_n}{\lambda}-n=0$

$\hat{\lambda}=\frac{x_1+x_2+...+x_n}{n}=\overline{X}$

解题步骤：

写出总体的概率函数【离散】、密度函数【连续】
写出似然函数 $L(\lambda)$
两边取 $lnL(\lambda)$
两边对 $\lambda$ 求导【偏导】，令导数【偏导】等于0

9.2 点估计的优良性准则

9.2.1 无偏性

$E\hat{\theta}=\theta$

总体 $X，EX=\mu，DX=\sigma^2,(X_1,X_2,...,X_n)$

$\overline{X}是\mu的无偏估计，E\overline{X}=\mu$
$样本方差S^2是\sigma^2的无偏估计，ES^2=\sigma^2$
$未修正方差S_0^2是\sigma^2的有偏估计$

$\hat{\theta}是\theta的无偏估计，但是g(\hat{\theta})不一定是g(\theta)的无偏估计$ 【 $样本方差S^2是\sigma^2的无偏估计,但是\sqrt{S^2}不是\sqrt{\sigma^2}的无偏估计$ 】

9.2.2 有效性

$D({\hat{\theta}_1})\leq D(\hat{\theta}_2)$ ，方差越小越好

9.2.3 一致性

$lim_{n\rightarrow{+\infty}}P(|\hat{\theta}-\theta|<\varepsilon)=1$ 【样本数目n越多，估计值与真实值的距离越小】

9.3 区间估计

9.3.1 置信区间

区间长度、以概率p落在这个区域

$P(\hat{\theta}_1\leq\theta\leq \hat{\theta}_2)=1-\alpha$ 【 $1-\alpha：置信度；[\hat{\theta}_1,\hat{\theta}_2]$ ：置信区间】

【 $[\hat{\theta}_1,\hat{\theta}_2]$ 能套 $\theta$ 的概率】

枢轴变量

$F=I(T,\theta)$ 【 $\theta$ 未知， $T$ 已知，分布 $F$ 已知且与 $\theta$ 无关】 $\Longrightarrow$ 枢轴变量
给定 $1-\alpha$ ，确定F的上 $\frac{\alpha}{2}$ 分位数 $V_{\frac{\alpha}{2}}$ ，上 $(1-\frac{\alpha}{2})$ 分位数 $V_{1-\frac{\alpha}{2}}$ , $P({V_{1-\frac{\alpha}{2}}}\leq F(T,\theta)\leq V_{\frac{\alpha}{2}})=1-\alpha$

9.4 正态总体均值和方差的区间估计

9.4.1 一个总体 $N(\mu,\sigma^2)$

（1） $\sigma^2$ 已知，估计 $\mu$

构造： $U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ ，给定 $1-\alpha$ ，令 $P(U>U_\frac{\alpha}{2})=\frac{\alpha}{2},\Phi_0(\frac{\alpha}{2})=1-\Phi_0(\frac{\alpha}{2})$

则： $P(-U_{\frac{\alpha}{2}}\leq \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \leq U_{\frac{\alpha}{2}})=1-\alpha$ $\Longrightarrow$ $P(\overline{X}-\frac{U_{\frac{\alpha}{2}}·\sigma}{\sqrt{n}}\leq \mu \leq \overline{X}+\frac{U_{\frac{\alpha}{2}}·\sigma}{\sqrt{n}})=1-\alpha$

（2） $\sigma^2$ 未知，估计 $\mu$

构造： $T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ 【S：样本标准差】

则： $P(-t_{\frac{\alpha}{2}}(n-1)\leq \frac{\overline{X}-\mu}{S/\sqrt{n}} \leq t_{\frac{\alpha}{2}}(n-1))=1-\alpha$

(3) $\mu$ 已知，估计 $\sigma^2$

$\chi^2=\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n)$ ，给定 $1-\alpha$ ， $\chi^2_{1-\frac{\alpha}{2}}(n)$ ， $\chi^2_{\frac{\alpha}{2}}(n)$

$\Longrightarrow$ $P(\chi^2_{1-\frac{\alpha}{2}}(n)\leq \frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \leq \chi^2_{\frac{\alpha}{2}}(n))=1-\alpha$

（4） $\mu$ 未知，估计 $\sigma^2$

$\chi^2=\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$ ， $\chi^2_{1-\frac{\alpha}{2}}(n-1)$ ， $\chi^2_{\frac{\alpha}{2}}(n)$

$\Longrightarrow$ $P(\chi^2_{1-\frac{\alpha}{2}}(n-1)\leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2_{\frac{\alpha}{2}}(n-1))=1-\alpha$
$\begin{array}{c|c|c} \hline 估计 & 条件 & 构造函数 & 置信区间 \\\hline \mu & \sigma^2已知 & U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) & [\overline{X}-\frac{\sigma·U_{\frac{\alpha}{2}}}{\sqrt{n}},\overline{X}+\frac{\sigma·U_{\frac{\alpha}{2}}}{\sqrt{n}}] \\ \mu & \sigma^2未知 & T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) & [\overline{X}-\frac{\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)}{\sqrt{n}},\overline{X}+\frac{\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)}{\sqrt{n}}] \\ \sigma^2 & \mu已知 &\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n) & [\frac{\sum{(X_i-\mu)^2}}{\chi^2_{\frac{\alpha}{2}}(n)},\frac{\sum{(X_i-\mu)^2}}{\chi^2_{1-\frac{\alpha}{2}}(n)}] \\ \sigma^2 & \mu未知 & \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) & [\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}]\\ \hline \end{array}$

9.4.2 两个正态总体

$\sim N(\mu_1,\sigma_1^2)$ 样本 $X_1,X_2,...,X_{n_1})$ $\overline{X},S_1^2$ ；

$\sim N(\mu_2,\sigma^2_2)$ 样本 $Y_1,Y_2,...,Y_{n_2})$ $\overline{Y},S_2^2$

（1）均值差 $\mu_1-\mu_2$ 的区间估计， $\sigma^2_1,\sigma^2_2$ 已知

构造： $\overline{X}-\overline{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$

$\Longrightarrow$ $\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)$

（2）均值差 $\mu_1-\mu_2$ 的区间估计， $\sigma^2_1=\sigma^2_2=\sigma^2$ 未知

构造： $\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1^2}{n_2}}} \sim t(n_1+n_2-2)$ 【 $S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$ 】

（3） $\frac{\sigma^2_1}{\sigma^2_2}$ 的区间估计， $\mu_1,\mu_2$ 未知

构造： $F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$

十、假设检验

10.1 基础概念

统计推断：区间估计+假设检验

假设：总体的分布函数未知 $\begin{cases}类型未知 \Longrightarrow 非参数假设 \\ 参数未知 \Longrightarrow 参数假设\end{cases}$ ，对总体的分布函数进行假设
假设检验：检验假设成立与否【参数假设检验、非参数的假设检验】
假设检验问题： $\begin{cases} 显著性检验问题 \Longrightarrow 唯一假设H_0 \\ H_0对H_1的假设检验问题 \end{cases}$ 提出原假设【不能轻易否定的假设】、备择假设

10.1.1 假设检验的基本思想和步骤

核心思想：小概率事件在一次试验中不易发生

思想：

构造统计量T【不含未知参数】，在 $H_0$ 成立的条件下，T的分布已知
构造检验法则，找到小概率事件 $\in I)=\alpha(小)$

$\Longrightarrow$ $P\{(X_1,X_2,...,X_n)\in W\}=\alpha$ ，则W是小概率事件，拒绝原假设， $W$ 是拒绝域

$\Longrightarrow$ $P\{(X_1,X_2,...,X_n)\in \overline{W}\}=1-\alpha$ ，接受原假设， $\overline{W}$ 是接受域

步骤

提出原假设与备择假设
假定 $H_0$ 成立，取统计量T，T的分布已知
对于给定的 $\alpha$ 找到拒绝域和接受域
由样本数据求出统计量T的值，如果样本值在拒绝域，则拒绝 $H_0$ ，落在接受域，接受 $H_0$

10.1.2 两类错误

第一类错误：弃真

$P\{拒绝H_0|H_0为真\}=\alpha$

第二类错误：纳伪

$P\{接受H_0|H_0为假\}=\beta$
$\begin{array}{c|c|c} \hline 决策 & H_0 为真 & H_0 为假 \\ \hline 接受H_0 & 正确决策(1-\alpha) & 纳伪[第二类错误](\beta) \\ \hline 拒绝H_0 & 弃真[第一类错误](\alpha) & 正确决策(1-\beta) \\ \hline \end{array}$

10.2 正态总体的参数假设检验

10.2.1 一个正态总体 $N(\mu,\sigma^2)$

$X\sim N(\mu,\sigma^2)，(X_1,X_2,...,X_n)取自X的样本，检验水平\alpha$

10.2.1.1 $\mu$ 的假设检验

提出假设

(1) $H_0：\mu=\mu_0，H_1：\mu \neq \mu_0$ 【双边检验】

(2) $H_0：\mu \leq \mu_0，H_1：\mu > \mu_0$ 【单边检验】

(3) $H_0：\mu \geq \mu_0，H_1：\mu <\mu_0$ 【单边检验】

1. $\sigma^2=\sigma^2_0$ 已知，检验 $H_0：\mu=\mu_0$ （Z检验）

第一步： $H_0：\mu=\mu_0，H_1：\mu \neq \mu_0$

第二步：假定 $H_0$ 成立， $\sim N(\mu_0,\sigma_0^2)$

$\Longrightarrow$ 取统计量： $U=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)$

第三步：对于给定的 $\alpha$ ，由 $P\{|U|\geq U_{\frac{\alpha}{2}}\}=\alpha$ 得到 $U_{\frac{\alpha}{2}}$ ，拒绝域： $\{(X_1,X_2,...,X_n)||U|>U_{\frac{\alpha}{2}}\}$

【 $\alpha=0.1,U_{\frac{\alpha}{2}}=1.64;\alpha=0.05,U_{\frac{\alpha}{2}}=1.96;\alpha=0.01,U_{\frac{\alpha}{2}}=2.58$ 】

第四步：通过样本值计算 $U$ 的值 $u$ ，将 $∣ u ∣$ 与 $U_{\frac{\alpha}{2}}$ 进行比较，结论：

$\begin{cases} |u|> U_{\frac{\alpha}{2}} &拒绝H_0 \\ |u|<U_{\frac{\alpha}{2}} & 接受H_0 \\ |u|=U_{\frac{\alpha}{2}} & 再抽样 \end{cases}$

2. $\sigma^2$ 未知，检验 $H_0：\mu=\mu_0$ （t检验）

统计量： $T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1)$

10.2.1.2 $\sigma^2$ 的假设检验

$\mu=\mu_0$ 已知，检验 $H_0：\sigma^2=\sigma_0^2$ （ $\chi^2$ 检验）

统计量： $\chi^2=\frac{\sum_{i=1}^n(X_i-\mu_0)^2}{\sigma^2_0} \sim \chi^2(n)$
$\mu$ 未知，检验 $H_0：\sigma^2=\sigma_0^2$ （ $\chi^2$ 检验）
统计量：
$\chi^2=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2_0} \sim \chi^2(n-1)$
$\Longrightarrow$ $\chi^2=\frac{(n-1)S^2}{\sigma^2_0} \sim \chi^2(n-1)$

10.2.2 两个正态总体

$X\sim N(\mu_1,\sigma_1^2)，(X_1,X_2,...,X_n)取自X的样本，\overline{X},S_1^2$

$Y\sim N(\mu_2,\sigma_2^2)，(Y_1,Y_2,...,Y_n)取自Y的样本，\overline{Y},S_2^2$

10.2.2.1 均值 $\mu_1,\mu_2$ 的差异性检验

提出假设

(1) $H_0：\mu_1=\mu_2，H_1：\mu_1 \neq \mu_1$ 【双边检验】

(2) $H_0：\mu_1 \leq \mu_2，H_1：\mu_1 > \mu_2$ 【单边检验】

(3) $H_0：\mu_1 \geq \mu_2，H_1：\mu_1 <\mu_2$ 【单边检验】

1. $\sigma_1^2,\sigma_2^2$ 已知，检验 $H_0：\mu_1=\mu_2$ （Z检验）

$\overline{X}-\overline{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$

统计量： $U=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$

2. $\sigma_1^2=\sigma_2^2=\sigma^2$ 未知，检验 $H_0：\mu_1=\mu_2$ （t检验）

统计量：T
$\begin{aligned} \sigma_1^2 &=\sigma_2^2=\sigma^2 \\ &\Downarrow \\ U&=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2}}}\sim N(0,1) \\ &\Downarrow 用S^2估计\sigma^2\rightarrow Y=\frac{(n_1-1)S_1^2+(n_2-2)S_2^2}{\sigma^2}\sim \chi^2(n_1+n_2-2)\\ T&=\frac{U}{\sqrt{Y/(n_1+n_2-2)}}\sim t(n_1+n_2-2) \end{aligned}$

10.2.2.2 方差 $\sigma_1^2,\sigma_2^2$ 的差异性检验

1. $\mu_1,\mu_2$ 都未知，检验 $H_0：\sigma_1^2=\sigma_2^2$

统计量： $F=\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)$

10.3 分布拟合检验

对总体分布进行假设检验，假设总体服从某分布

步骤：

在 $H_0$ 下，总体 $X$ 取值的全体分为 $k$ 个两两不相交的子集 $A_1,...,A_k$
以 $n_i(i=1,...,k)$ 记样本观察值 $x_1,...,x_n$ 中落在 $A_i$ 的个数(实际频数)
当 $H_0$ 为真且 $F_0(x)$ 完全已知时，计算事件 $A_i$ 发生概率 $p_i=P_{F_0}(A_i),i=1,...,k$

当 $F_0(x)$ 含有 $r$ 个未知参数时，先利用极大似然估计法估计 $r$ 个未知参数，然后求得 $p_i$ 的估计 $\hat{p_i}$

此时 $np_i(n\hat{p_i})$ 为理论频数
检验统计量 $\chi^2=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i}=\sum_{i=1}^k\frac{n_i^2}{np_i}-n$

或者 $\chi^2=\sum_{i=1}^k\frac{(n_i-n\hat{p_i})^2}{n\hat{p_i}}=\sum_{i=1}^k\frac{n_i^2}{n\hat{p_i}}-n$

拒绝域： $\chi^2=\sum_{i=1}^k\frac{n_i^2}{np_i}-n \geq \chi^2_\alpha(k-1)$

或者 $\chi^2=\sum_{i=1}^k\frac{n_i^2}{n\hat{p_i}}-n \geq \chi^2_\alpha(k-r-1)$

定理： $若n充分大，则当H_0为真时，统计量$
$\begin{aligned} \chi^2&=\sum_{i=1}^k\frac{(n_i-np_i)^2}{np_i} \sim \chi^2(k-1)\\ \chi^2&=\sum_{i=1}^k\frac{(n_i-n\hat{p_i})^2}{np_i} \sim \chi^2(k-r-1)\\ \\ &k为分类数，r为F_0(x)中被估未知参数的个数 \end{aligned}$

【注意： $\chi^2$ 拟合检验时需要== $n$ 足够大==， $n\geq 50,np_i\geq5$ 。否则应适当合并相邻的类，以满足要求】

十一、方差分析

试验指标： 方差分析中，研究对象的特征值，即所考察的试验结果

因素： 对试验指标产生影响的原因

水平： 因素中各个不同状态

11.1 单因素方差分析

仅考虑一个因素A对试验指标的影响，假设因素A有r个水平，分别在第i水平下进行了多次独立观测，所得到的试验指标的数据
$\begin{aligned} A_1：N(\mu,\sigma^2) && X_{11}&&X_{12}&&... &&X_{1n_1} \\ A_2：N(\mu,\sigma^2) && X_{21}&&X_{22}&&... &&X_{2n_2} \\ ...\\ A_r：N(\mu,\sigma^2) && X_{r1}&&X_{r2}&&... &&X_{rn_1} \\ \end{aligned}$
各总体间相互独立，得到如下的数学模型
$\begin{cases} X_{ij} \sim \mu_i+\varepsilon_{ij}\\ \varepsilon_{ij}\sim N(0,\sigma^2)，各\varepsilon_{ij}独立\\ j=1,2,...,n_i，i=1,2,...,r \end{cases}$
记 $\sum_{i=1}^rn_i=n，\overline{X_i·}=\frac{1}{n_i}\sum_{j=1}^{n_i}X_{ij}，\overline{X}=\frac{1}{n}\sum_{i=1}^r\sum_{j=1}^{n_i}X_{ij}$

方差分析的目的： 比较因素A的r各水平下试验指标理论均值的差异，即：比较这r个总体的均值差异

定理： $S_T=S_A+S_E$ ； $\frac{S_E}{\sigma^2} \sim \chi^2(n-r)$ ；

$S_A与S_E相互独立，当H_0为真时:\frac{S_A}{\sigma^2}\sim \chi^2(r-1)$

$\Longrightarrow$ $F=\frac{S_A/(r-1)}{S_E/(n-r)} \sim F(r-1,n-r)$

假设检验： $H_0:\mu_1=\mu_2=...=\mu_r$

$H_1：\mu_1,\mu_2,...,\mu_r不全相等$

检验假设的方法：平方和分解

数据总的差异用总离差平方和 $S_r$ 表示，将 $S_r$ 分解为

$\begin{cases}S_A & 效应平方和，由于因素A引起的差异 \\ S_E & 误差平方和，由随机误差引起的差异 \end{cases}$

$\begin{cases}S_T=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\overline{X})^2 \\S_A =\sum_{i=1}^rn_i(\overline{X_{i·}}-\overline{X})^2\\S_E=\sum_{i=1}^r\sum_{j=1}^{n_i}(X_{ij}-\overline{X_{i·}})^2\end{cases}$

拒绝域： $F=\frac{S_A/(r-1)}{S_E/(n-r)}\geq F_{\alpha}(r-1,n-r)$ 时拒绝原假设

单因素试验方差分析表：
$\begin{array}{c|c|c}\hline方差来源 & 平方和 & 自由度 & 均方 & F比 \\ \hline因素A[组间] & S_A & r-1 & \overline{S_A}=\frac{S_A}{r-1} & F=\frac{S_A/(r-1)}{S_E/(n-r)} \\ \hline 误差[组内] & S_E & n-r & \overline{S_A}=\frac{S_E}{n-r} & \\ \hline总和 & S_T & n-1 & & \\ \hline\end{array}$