NTU 课程笔记：CV6422 样本分布

UQI-LIUWJ

已于 2022-03-08 16:26:47 修改

阅读量604

点赞数

分类专栏： NTU课程文章标签：概率论机器学习深度学习

于 2022-01-18 23:26:34 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/122569723

版权

NTU课程专栏收录该内容

54 篇文章 0 订阅

订阅专栏

1 样本均值的采样分布

如果样本是从正态分布 $[\mu,\sigma^2]$ 中采样得到的（population distribution 为正态分布），那么对于任何大小的n，样本均值 $\bar{X}$ 都是正态分布
如果样本不是从正态分布中采样得到的，但是它的均值和方差已知 $[\mu,\sigma^2]$ （population distribution 不是正态分布，但是均值和方差为 $[\mu,\sigma^2]$ ）。如果样本数量n很大的话（n≥30），那么样本均值 $\bar{X}$ 可以被近似为正态分布

如果样本是从正态分布 $[\mu,\sigma^2]$ 中采样得到的（population distribution 为正态分布），但是 $\sigma^2$ 未知，且n较小（小于30） ，那么样本均值 $\bar{X}$ 可以被近似为n-1自由度的t-分布

关于如何判断是否为正态分布：可以通过使用QQ图判断

1.0.1 t分布形式的证明：

证明t分布的话，我们需要知道样本数据以下几个条件

$\large \bar{X}\sim N(\mu,\frac{\sigma^2}{n})$ ——> $\large \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)$
$\large \frac{(n-1)S^2}{\sigma^2} \sim X^2(n-1)$

同时t分布的定义为：

于是我们有：

$\large \frac{\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{\frac{(n-1)S^2}{\sigma^2} }{n-1}}}$ 为自由度是n-1的t分布，化简之后有满足自由度为n-1的t分布

1.1 中心极限定理

对于上述的第二种情况，我们称之为中心极限定理central limit theorem (CLT)

通过图例我们可以看出，随着样本变多，样本均值的分布逐渐向正态分布转变（n=1就是样本本身的分布，可以看出来和正态分布有很大的出入）

2 样本均值之差的分布

从分布 $[\mu_1,\sigma_1^2]$ ， $[\mu_2,\sigma_2^2]$ 中独立采样n1和n2，如果

（1）分布1和分布2的population distribution均为已知σ的正态分布

或者

（2）n1和n2都很大（大于30）

那么二者的均值之差可以被近似为一个正态分布，其中：

即：

（3）分布1和分布2的population distribution均为不知道σ的正态分布，且样本数量不多，那么可以使用t分布

2.1 第一和第二小节的总结

如果样本数量多的时候，我们不知道population 的方差，我们可以用样本方差近似之

3 二项分布采样样本的样本概率分布

对于二项分布X~b(x;n,p)，我们知道E(X)=np，同时V(X)=np(1-p)

当样本n很大，同时p不是很大也不是很小的时候（np＞5,n(1-p)＞5）,我们可以用正态分布来近似样本的二项分布

而如果我们分式上下同时除以n，就得到了样本概率分布

4 正态分布样本的样本方差分布

对于正态分布中采样的样本X，（population distribution为方差为 $\sigma^2$ 的正态分布），如果样本数量为n，那么

的分布为自由度为n-1的chi-square分布

4.1 证明

首先，对于样本，我们有：

$\large S^2=\frac{1}{n-1}\sum_{i=0}^n(x_i-\bar{x})^2$

然后对上式左右进行变换，有：

$\large \frac{(n-1)S^2}{\sigma^2}=\sum_{i=0}^n\frac{(x_i-\bar{x})^2}{\sigma^2} =\sum_{i=0}^n(\frac{(x_i-\bar{x})}{\sigma})^2$

我们令 $\large \frac{x_i-\mu}{\sigma}=z_i \sim N(0,1)$ ，那么 $\large \frac{\bar{x_i}-\mu}{\sigma}=\bar{z}$ （注： $\large \frac{(x_i-\bar{x})}{\sigma}$ 并不是N(0,1)，不能在上一行中直接用chi-square分布的定义）

将 $\large z_i,\bar{z_i}$ 代入，有：

$\large \frac{(n-1)S^2}{\sigma^2}=\sum_{i=0}^n(z_i-\bar{z}) ^2=\sum_{i=0}^n(z_i)^2-2\sum_{i=0}^n(z_i\bar{z})+\sum_{i=0}^n(\bar{z})^2$

$\large =\sum_{i=0}^n(z_i)^2-2\bar{z}\sum_{i=0}^n(z_i)+n(\bar{z})^2$

$\large =\sum_{i=0}^n(z_i)^2-2\bar{z}(n\bar{z})+n(\bar{z})^2$

$\large =\sum_{i=0}^n(z_i)^2-n(\bar{z})^2$

$\large =\sum_{i=0}^n(z_i)^2-(\sqrt{n}\bar{z})^2$

$\large \sum_{i=0}^n(z_i)^2$ 是自由度为n的chi-square 分布

而对于 $\large (\sqrt{n}\bar{z})^2$ ，我们先看 $\large \sqrt{n}\bar{z}$ 的分布

$\large E[(\sqrt{n}\bar{z})]=\frac{\sqrt{n}*0+\sqrt{n}*0+\dots+\sqrt{n}*0}{n}=0$

$\large Var[(\sqrt{n}\bar{z})]=\frac{(\sqrt{n}*1)^2+(\sqrt{n}*1)^2+\dots+(\sqrt{n}*1)^2}{n}=1$

所以 $\large \sqrt{n}\bar{z}$ ~N(0,1)，可以看作是自由度为1的chi-square分布

所以 $\large \frac{(n-1)S^2}{\sigma^2}$ 是自由度为n-1的chi-square分布

5 样本方差比值的分布

5.1 推导

通过条件我们知道

$\large u=\frac{(n_1-1)S_1^2}{\sigma_1^2}\sim \chi^2(n_1-1)$

$\large v=\frac{(n_2-1)S_2^2}{\sigma_2^2}\sim \chi^2(n_2-1)$

F分布的定义为

那么

$\large F=\frac{\frac{u}{n_1-1}}{\frac{v}{n_2-1}}=\frac{\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}}{n_1-1}}{\frac{\frac{(n_2-1)S_2^2}{\sigma_2^2}}{n_2-1}} =\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}}$ 是自由度为n1-1,n2-1的F分布

6 样本估计的标准

6.1 无偏性

s1是无偏估计，s2是有偏估计

6.2 有效性 efficient

看的是它的“范围”

6.3 持续性 consistent

翻译一下就是样本量越大，范围越narrow

UQI-LIUWJ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
NTU 课程笔记：CV6422 样本分布

1 样本均值的采样分布如果样本是从正态分布中采样得到的（population distribution 为正态分布），那么对于任何大小的n，样本均值都是正态分布如果样本不是从正态分布中采样得到的，但是它的均值和方差已知（population distribution 不是正态分布，但是均值和方差为）。如果样本数量n很大的话（n≥30），那么样本均值可以被近似为正态分布如果样本是从正态分布中采样得到的（population distribution 为正态分布），但是未知，且n较小（小于3
复制链接

扫一扫