数理统计复习笔记（一）数理统计初步

最新推荐文章于 2022-09-17 21:31:15 发布

让步如故

最新推荐文章于 2022-09-17 21:31:15 发布

阅读量881

点赞数 4

分类专栏：概率论与数理统计笔记文章标签：概率论统计学

本文链接：https://blog.csdn.net/m0_45381924/article/details/108041947

版权

笔记同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

概率论与数理统计

6 篇文章 9 订阅

订阅专栏

数理统计复习笔记（一）数理统计初步

基本概念

基本概念

样本、总体、统计量

总体与个体

研究对象的全体叫做总体;其中的每个单元(或元素)叫做个体.

通常研究对象是某个指标,视为随机变量 $X,$ 因而 $X$ 取值的全体叫做总体.

其中的每一个 $X_i(i=1,2,\cdots,n)$ 叫做个体.

样本

样本定义

在总体 $X$ 中抽取 $n$ 个个体 $X_1,X_2,\cdots,X_n,$ 这 $n$ 个个体就称为总体 $X$ 的容量为 $n$ 的样本.

样本值

对一次具体的抽取得到 $n$ 个数值 $x_1,x_2,\cdots,x_n$ 这一组数值叫做样本值,或叫做样本的观察值 .

简单随机样本

通常对样本的选取是有要求的.具有下面两个特点的样本叫简单随机样本.

(1) 每个个体 $X_i(i=1,2,\cdots,n)$ 与总体 $X$ 同分布;
(2) 任何两个个体 $X_i$ 与 $X_j(i\neq j)$ 之间相互独立.

样本 $X_1,X_2,\cdots,X_n$ 的联合分布

设总体 $X$ 的分布函数为 $F (x),$ 密度函数为 $f (x),$ 样本的联合分布函数为 $F^*(X_1,X_2,\cdots,X_n),$ 联合密度函数为 $f^*(x_1,x_2,\cdots,x_n).$ 则有
$F^*(X_1,X_2,\cdots,X_n)=\quad\prod_{i=1}^nF(x_i);\\ f^*(x_1,x_2,\cdots,x_n)==\quad\prod_{i=1}^nf(x_i).$

统计量及样本的数字特征

统计量的定义

设 $X_1,X_2,\cdots,X_n$ 是来自总体 $X$ 的一个样本, $g(X_1,X_2,\cdots,X_n)$ 是 $X_1,X_2,\cdots,X_n$ 的函数,若 $g$ 中不含未知参数,则称 $g(X_1,X_2,\cdots,X_n)$ 是一统计量.

常见统计量

统计量	定义
样本平均值	$\overline{X}={1\over n}\sum_{i=1}^nX_i$
样本方差	$S^2={1\over n-1}\sum_{i=1}^n(X_i-\overline{X})^2={1\over n-1}(\sum_{i=1}^nX_i^2-n\overline{X}^2)$
样本标准差	$S=\sqrt{S^2}=\sqrt{{1\over n-1}\sum_{i=1}^n(X_i-\overline{X})^2}$
样本 $k$ 阶(原点)矩	$A_k={1\over n}\sum_{i=1}^nX_i^k(k=1,2,\cdots)$
样本 $k$ 阶中心矩	$B_k={1\over n}\sum_{i=1}^n(X_i-\overline{X})^k(k=1,2,\cdots)$

定理5-1

设 $EX=\mu,DX=\sigma^2,X_1,X_2,\cdots,X_n$ 是来自总体 $X$ 的一个样本,则 $E\overline{X}=\mu,D\overline{X}={\sigma^2\over n},ES^2=\sigma^2.$

三大统计分布

$\chi^2$ 分布

$\chi^2$ 分布的定义

设总体 $X\sim N(0,1),X_1,X_2,\cdots,X_n$ 为简单随机样本 $(X_i\sim N(0,1)),$ 统计量 $\chi^2$ 为
$\chi^2=X^2_1+X^2_2+\cdots+X^2_n=\sum_{i=1}^n X^2_i$
则称 $\chi^2$ 所服从的分布为自由度是 $n$ 的 $\chi^2$ 分布,记为 $\chi^2\sim\chi^2(n).$

它的概率密度函数为
$\begin{cases} \frac{1}{2^{n\over2}\Gamma({n\over2})}y^{{n\over2}-1}e^{-{y\over2}},y>0\\ 0, \text{其他，} \end{cases}$

$\chi^2$ 分布的分位点

对给定的 $\alpha(0<\alpha<1),$ 若有一点 $\chi^2_\alpha(n),$ 如果 $P\{\chi^2(n)>\chi^2_\alpha(n)\}=\alpha,$ 则称此点为 $\chi^2(n)$ 分布的上 $\alpha$ 分位点.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d6KzHjAy-1597578937835)(C:\Users\HP\Desktop\概率论与数理统计笔记\imgs\sltj1\1.png)]

$\chi^2$ 分布的可加性

若 $\chi^2_1(n)\sim\chi^2(n_1)$ , $\chi^2_2(n)\sim\chi^2(n_2)$ 且相互独立,则 $\chi^2_1+\chi^2_2\sim\chi^2(n_1+n_2).$

$\chi^2$ 分布的期望和方差

$E(\chi^2(n))=,D(\chi^2(n))=2n.$

$t$ 分布

$t$ 分布的定义

设 $U\sim N(0,1),V\sim \chi^2(n),U,V$ 相互独立,记 $T={U\over\sqrt{V/n}},$ 则称 $T$ 所服从的分布为自由度是 $n$ 的 $t$ 分布.记为 $T\sim t(n).$ 它的概率密度函数为
$f(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^{2}}{n}\right)^{-\frac{n-1}{2}}(-\infty<t<+\infty)$
$f (t)$ 是偶函数,图形对称于中心轴 $t = 0 .$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nToaZ9fp-1597578937837)(C:\Users\HP\Desktop\概率论与数理统计笔记}YZP%0}VEJU@NOJQDU[][U.png)]

$t$ 分布的分位点：

对给定的 $\alpha(0<\alpha<1),$ 若有一点 $t_\alpha(n),$ 如果满足 $P\{T>t_\alpha(n)\}=\alpha,$ 则称此点为 $t (n)$ 分布的上 $\alpha$ 分位点.

$t$ 分布的性质

$t_{1-\alpha}(n)=-t_\alpha(n).$
$\lim_{n\to\infty}f(t)={1\over\sqrt{2\pi}}e^{-{t^2\over2}}=\varphi(t),$ 即 $t$ 分布的极限分布为$N(0,1) $分布 . 当时$ n $很大时$ t(n)$分布近似为 N(0,1)分布.

$F$ 分布

$F$ 分布的定义

设 $U\sim\chi^2(m),V\sim\chi^2(n),$ 并且 $U, V$ 相互独立,则称随机变量 $F={U/m\over V/n}$ 服从自由度为 $(m, n)$ 的 $F$ 分布,记作 $F\sim F(m,n),$ 其分布密度为
$f(y)=\left\{\begin{array}{ll} \frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)}\left(\frac{m}{n}\right)^{\frac{m}{2}} y^{\frac{\mu}{2}-1}\left(1+\frac{m}{n} y\right)^{-\frac{m+n}{2}}, & y \geqslant 0 \\ 0, & y<0 \end{array}\right.$
其中,m称为第一自由度，n称为第二自由度.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D1WBvvm6-1597578937839)(C:\Users\HP\Desktop\概率论与数理统计笔记\F.png)]

$F (m, n)$ 分布的分位点：

对给定的 $\alpha(0<\alpha<1),$ 若有一点 $F_\alpha(n_1,n_2),$ 满足 $P\{F>F_\alpha(n_1,n_2)\}=\alpha,$ 则称 $F_\alpha(n_1,n_2)$ 为 $F(n_1,n_2)$ 分布的上 $\alpha$ 分位点.

$F$ 分布的性质：

若 $F\sim F(m,n),$ 则 $1/F\sim F(n,m).$
若 $X_1,X_2,\cdots,X_m$ 和 $Y_1,Y_2,\cdots,Y_n$ 分别表示取自两个正态总体 $N(\mu_1,\sigma_1^2)$ 和 $N(\mu_2,\sigma_2^2)$ 的简单随机样本 $,\overline{X},\overline{Y}$ 和 $S_1^2,S_2^2$ 分别表示其样本均值和方差,则有
${S_1^2/S_2^2\over \sigma_1^2/\sigma_2^2}\sim F(m-1,n-1);$

正态总体的样本均值与样本方差的分布：

设总体 $X\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，则有
$\begin{array}{l} \overline{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) \text { 或 } \frac{\overline{X}-\mu}{\sigma} \sqrt{n} \sim N(0,1) \\ \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \\ \frac{\overline{X}-\mu}{S} \sqrt{n} \sim t(n-1)\\ X与S^2相互独立 \end{array}$

参数估计

点估计

设 $\theta$ 为未知,一般用样本 $X_1,X_2,\cdots,X_n$ 构造一个统计量 $\hat{\theta}[\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)]$ 来作为参数 $\theta$ 真值的估计,我们称 $\hat{\theta}$ 为未知参数 $\theta$ 的估计量,也称为 $\theta$ 的点估计.

矩估计

由于样本来自总体,它是总体的代表,样本的数字特征包含了总体数字特征的许多信息.因此可用样本均值 $\overline{X}$ 和样本方差 $S^2$ 分别作为总体均值 $\mu$ 和总体方差 $\sigma^2$ 的一种估计,记为 $\hat{\mu}=\overline{X},\hat{\sigma}^2=S^2.$

更一般地,用样本的某种矩作为总体的相应矩的估计.例如
$\hat{\mu}=m_k={1\over n}\sum_{i=1}^{n}X_i^k,\\ \hat{\mu}_k^\prime=m_k^\prime={1\over n}\sum_{i=1}^{n}(X_i-\overline{X})^k.$
这种用样本矩来估计总体矩的方法称为矩估计法,所得的估计称为矩估计.

极大似然估计

设总体 $X\sim f(x,\theta),$ 其中 $\theta$ 为待估计的未知参数. $X_1,X_2,\cdots,X_n$ 为总体 $X$ 的一个样本, $(x_1,x_2,\cdots,x_n)$ 是样本 $X_1,X_2,\cdots,X_n$ 的一组观察值.那么 $(X_1,X_2,\cdots,X_n)$ 落在 $(x_1,x_2,\cdots,x_n)$ 的邻域里的概率近似为 $\prod_{i=1}^nf(x_i,\theta)dx_i=T,$ 显然 $T$ 是 $\theta$ 的函数.由于 $(X_1,X_2,\cdots,X_n)$ 落在 $(x_1,x_2,\cdots,x_n)$ 的邻域里这一事件已经发生了,故其概率应较大,即 $T$ 应较大.因此我们选择使T达最大的 $\hat{\theta}$ 作为未知参数 $\theta$ 的真实值的估计是合理的，这种估计法称为极大似然估计法.

对于每个观察值 $(x_1,x_2,\cdots,x_n)$ 选择 $\hat{\theta}$ 使 $T$ 达最大等价于使 $\prod_{i=1}^nf(x_i,\theta)$ 达最大,即
$\prod_{i=1}^nf(x_i,\hat{\theta})=max\prod_{i=1}^nf(x_i,\theta)$

这样的 $\hat{\theta}$ 显然是 $x_1,x_2,\cdots,x_n$ 的函数，记为 $\hat{\theta}=\hat{\theta}(x_1,x_2,\cdots,x_n),$ 称 $\hat{\theta}$ 为未知参数 $\theta$ 的极大似然估计值.而称相应的统计量 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 为未知参数 $\theta$ 的极大似然估计量.记
$L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^nf(x_i,\theta)$
称 $L(x_1,x_2,\cdots,x_n;\theta)$ 为似然函数,简记为 $L(\theta).$ 因此求的问题归结为求 $L(\theta)$ 的极值问题.

如果 $L(\theta)$ 关于 $\theta$ 可微,则 $\hat{\theta}$ 应满足=0.而 $L(\theta)$ 是函数连乘积的形式,取对数求导更方便,且 $\ln L$ $与$ $L$ 有相同的极值点,所以 $\theta$ 应满足 ${\partial\ln L\over\partial\theta}=0.$

对于离散型随机变量,式中的 $f(x_i,\theta)$ 可用分布律 $p(x_i,\theta)$ 来代替,其结果相同.

区间估计

置信区间

设总体 $X$ 的分布函数 $F(x;\theta)$ 含有一个未知参数 $\theta,\theta\in\Theta$ ( $\Theta$ 是 $\theta$ 可能取值的范围),对于给定值 $\alpha(0<\alpha<1),$ 若由来自 $X$ 的样本 $X_1,X_2,\cdots,X_n$ 确定的两个统计量 $\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)$ 和 $\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n),$ 对于任意 $\theta\in\Theta$ 满足
$P\{\underline{\theta}(X_1,X_2,\cdots,X_n)<\theta<\overline{\theta}(X_1,X_2,\cdots,X_n)\}\geq1-\alpha$
则称随机区间 $(\underline{\theta},\overline{\theta})$ 是 $\theta$ 的置信水平为 $1一\alpha$ 的置信区间, $\underline{\theta}$ 和 $\overline{\theta}$ 分别称为置信水平为 $1一\alpha$ 的双侧置信区间的置信下限和置信上限称为 $1一\alpha$ 置信水平.

单个总体 $N\left(\mu, \sigma^{2}\right)$ 的情况

估计均值 $\mu$

当 $\sigma^{2}$ 已知时,抽样分布 $U={\overline{X}-\mu\over \sigma/\sqrt{n}}~N(0,1).$

置信度为$1 一 \alpha $的双侧置信区间为
$\left(\bar{X}-u_{\frac{a}{2}} \cdot \frac{\sigma}{\sqrt{n}}, \bar{X}+u_{\frac{a}{2}} \cdot \frac{\sigma}{\sqrt{n}}\right)$

当 $\sigma^{2}$ 未知时,抽样分布 $U={\overline{X}-\mu\over S/\sqrt{n}}~t(n-1).$

置信度为$1 一 \alpha $的双侧置信区间为
$\left(\bar{X}-t_{\frac{a}{2}} \cdot \frac{S}{\sqrt{n}}, \bar{X}+t_{\frac{a}{2}} \cdot \frac{S}{\sqrt{n}}\right)$

估计方差 $\sigma^{2}$

当 $\mu$ 已知时 $,$ 抽样分布 $W=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\sim \chi^{2}(n),$ 置信度为 $1-\alpha$ 的双侧置信区问为
$\left(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{\frac{\alpha}{2}}^{2}(n)}, \frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{1-\frac{\alpha}{2}}^{2}(n)}\right)$

当 ${\mu}$ 未知时, 抽样分布 $W^{\prime}=\frac{(n-1) S^{2}}{\sigma^{2}}\sim\chi^{2}(n-1),$ 双侧置信区问为
$\left(\frac{(n-1) S^{2}}{\chi_{\frac{\alpha}{2}}^{2}(n-1)}, \frac{(n-1) S^{2}}{\chi_{1-\frac{a}{2}}^{2}(n-1)}\right)$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5XMydlwk-1597578937842)(C:\Users\HP\Desktop\概率论与数理统计笔记\1-1597420611500.png)]

假设检验

假设检验定义

对总体的分布类型或分布中的某些未知参数作出某种假定﹐然后抽取一个子样并选择一个合适的检验统计量.

利用检验统计量的观察值和预先给定的误差α,对所作假设成立与否作出定性判断,称为假设检验.只对分布中未知参数提出假设并作检验,则称为参数假设检验.

假设检验基本思想的依据

小概率原理是指概率很小的事件在试验中发生的频率也很小,因此小概率事件在一次试验中不可能发生.

当对问题提出待检假设 $H_0,$ 并要检验它是否可信时,先假定 $H_0$ 正确.

在这个假定下,经过一次抽样.

若小概率事件发生了,就作出拒绝 $H_0$ 的决定;

否则,若小概率事件未发生,则接受 $H_0.$

两类错误

人们作出判断的依据是一个样本,样本是随机的,因而人们进行假设检验判断 $H_0$ 可信与否时，不免发生误判而犯两类错误.

第一类错误: $H_0$ 为真,而检验结果将其否定,这称为“弃真”错误;

第二类错误: $H_0$ 不真,而检验结果将其接受,这称为“取伪”错误.

单个总体 $N\left(\mu, \sigma^{2}\right)$ 的均值 $\mu$ 的检验

$\sigma^{2}$ 已知

原假设 $H_{0}: \mu=\mu_{0},$ 备择假设 $H_1:$

$1.\mu \neq \mu_{0}$ (双侧检验)

$2.\mu>\mu_{0}$ (右侧检验)

$3.\mu<\mu_{0}$ (左侧检验)。

给出 $\alpha, H_{0}$ 的拒绝域(小概率事件)

$1.\mid U\mid>z_{\frac{a}{2}}$

$2.U>z_{\alpha}$

$3.U<-z_{\alpha}$

对 $\overline{X}$ 来说 $H_0$ 的拒绝域为

$\bar{X}<\mu_{0}-z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$ 或 $\bar{X}>\mu_{0}+z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

$\bar{X}>\mu_{0}+z_{\alpha} \frac{\sigma}{\sqrt{n}}$

$\bar{X}<\mu_{0}-z_{\alpha} \frac{\sigma}{\sqrt{n}}$

$\sigma^{2}$ 未知

$H_{0}: \mu=\mu_{0}.$

$H_{1}:$

$1.\mu \neq \mu_{0}$

$2.\mu>\mu_{0}$

$3.\mu<\mu_{0}$

统讲量 $T=\frac{\bar{X}-\mu_{0}}{S / \sqrt{n}} \sim t(n-1)$

给出 $\alpha, H_{0}$ 的拒绝域(小概率事件)

$1.\mid T\mid>t_{\frac{a}{2}}(n-1)$

$2.T>t_{a}(n-1)$

$3.T<-t_{a}(n-1)$

对 $\overline{X}$ 来说 $H_0$ 的拒绝域为

$\bar{X}<\mu_{0}-t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}}$ 或 $\bar{X}>\mu_{0}+t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}}$

$\bar{X}>\mu_{0}+t_{\alpha}(n-1)\frac{S}{\sqrt{n}}$

$\bar{X}<\mu_{0}-t_\alpha(n-1)\frac{S}{\sqrt{n}}$

单个总体方差的检验

$\mu$ 已知

$H_{0}:\sigma^{2}=\sigma_{0}^{2}$

$H_{1}:$

$1.\sigma^{2}\neq\sigma_{0}^{2}$

$2.\sigma^{2}>\sigma_{0}^{2}$

$3.\sigma^{2}<\sigma_{0}^{2}$

统计量

$k^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n)$
给出 $\alpha, H_{0}$ 的拒绝域(小概率事件)

$1.0<k^{2}<\chi_{\left(-\frac{\alpha}{2}\right)}^{2}(n)$ 或 $k^{2}>\chi_{\frac{2}{2}}^{2}(n)$

$2.k^{2}>\mathcal{X}_{a}^{2}(n)$

$3.0<k^{2}<\chi_{1-a}^{2}(n)$

$\mu$ 未知

$H_{0}: \sigma^{2}=\sigma_{0}^{2}$

$H_{1}:$

$1.\sigma^{2}\neq\sigma_{0}^{2}$

$2.\sigma^{2}>\sigma_{0}^{2}$

$3.\sigma^{2}<\sigma_{0}^{2}$

统计量
$k^{2}=\frac{(n-1) S^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n-1)$
给出 $\alpha, H_{0}$ 的拒绝域(小概率事件)

$1.0<k^{2}<\chi_{1-\frac{a}{2}}^{2}(n-1)$ 或 $k^{2}>\chi_{\frac{2}{2}}^{2}(n-1)$

$2.k^{2}>\chi_{a}^{2}(n-1)$

$3.0<k^{2}<\chi_{1-a}^{2}(n-1)$

让步如故

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
数理统计复习笔记（一）数理统计初步

数理统计复习笔记（一）数理统计初步基本概念样本、总体、统计量总体与个体样本样本定义样本值简单随机样本样本X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn的联合分布统计量及样本的数字特征统计量的定义常见统计量定理5-1三大统计分布χ2\chi^2χ2分布χ2\chi^2χ2分布的定义χ2\chi^2χ2分布的分位点χ2\chi^2χ2分布的可加性χ2\chi^2χ2分布的期望和方差ttt分布ttt分布的定义ttt分布的分位点：ttt分布的性质FFF分布FFF分布的定义F(m
复制链接

扫一扫