NTU 课程笔记:CV6422 样本分布

1 样本均值的采样分布

  • 如果样本是从正态分布[\mu,\sigma^2]中采样得到的(population distribution 为正态分布),那么对于任何大小的n,样本均值\bar{X}都是正态分布
  • 如果样本不是从正态分布中采样得到的,但是它的均值和方差已知[\mu,\sigma^2]population distribution 不是正态分布,但是均值和方差为[\mu,\sigma^2])。如果样本数量n很大的话(n≥30),那么样本均值\bar{X}可以被近似为正态分布

如果样本是从正态分布[\mu,\sigma^2]中采样得到的(population distribution 为正态分布),但是\sigma^2未知,且n较小(小于30) ,那么 样本均值\bar{X}可以被近似为n-1自由度的t-分布

关于如何判断是否为正态分布:可以通过使用QQ图判断

1.0.1 t分布形式的证明:

证明t分布的话,我们需要知道样本数据以下几个条件

  • \large \bar{X}\sim N(\mu,\frac{\sigma^2}{n}) ——>\large \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)
  • \large \frac{(n-1)S^2}{\sigma^2} \sim X^2(n-1)

同时t分布的定义为:

于是我们有: 

\large \frac{\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{\frac{(n-1)S^2}{\sigma^2} }{n-1}}} 为自由度是n-1的t分布,化简之后有满足自由度为n-1的t分布

 1.1 中心极限定理

 对于上述的第二种情况,我们称之为中心极限定理central limit theorem (CLT)

 通过图例我们可以看出,随着样本变多,样本均值的分布逐渐向正态分布转变(n=1就是样本本身的分布,可以看出来和正态分布有很大的出入)

2 样本均值之差的分布

        从分布[\mu_1,\sigma_1^2][\mu_2,\sigma_2^2]中独立采样n1和n2,如果

(1)分布1和分布2的population distribution均为已知σ的正态分布

或者

(2)n1和n2都很大(大于30)

那么二者的均值之差可以被近似为一个正态分布,其中:

        

 即:

       (3)分布1和分布2的population distribution均为不知道σ的正态分布,且样本数量不多,那么可以使用t分布

 2.1 第一和第二小节的总结

如果样本数量多的时候,我们不知道population 的方差,我们可以用样本方差近似之

 3  二项分布采样样本的样本概率分布

        对于二项分布X~b(x;n,p),我们知道E(X)=np,同时V(X)=np(1-p)

        当样本n很大,同时p不是很大也不是很小的时候 (np>5,n(1-p)>5),我们可以用正态分布来近似样本的二项分布

        

        而如果我们分式上下同时除以n,就得到了样本概率分布

        

 4 正态分布样本的样本方差分布

        对于正态分布中采样的样本X,(population distribution为方差为\sigma^2的正态分布),如果样本数量为n,那么

 的分布为自由度为n-1的chi-square分布

4.1 证明

首先,对于样本,我们有:

\large S^2=\frac{1}{n-1}\sum_{i=0}^n(x_i-\bar{x})^2

然后对上式左右进行变换,有:

\large \frac{(n-1)S^2}{\sigma^2}=\sum_{i=0}^n\frac{(x_i-\bar{x})^2}{\sigma^2} =\sum_{i=0}^n(\frac{(x_i-\bar{x})}{\sigma})^2

我们令\large \frac{x_i-\mu}{\sigma}=z_i \sim N(0,1),那么\large \frac{\bar{x_i}-\mu}{\sigma}=\bar{z} (注:\large \frac{(x_i-\bar{x})}{\sigma} 并不是N(0,1),不能在上一行中直接用chi-square分布的定义)

\large z_i,\bar{z_i}代入,有:

\large \frac{(n-1)S^2}{\sigma^2}=\sum_{i=0}^n(z_i-\bar{z}) ^2=\sum_{i=0}^n(z_i)^2-2\sum_{i=0}^n(z_i\bar{z})+\sum_{i=0}^n(\bar{z})^2

                    \large =\sum_{i=0}^n(z_i)^2-2\bar{z}\sum_{i=0}^n(z_i)+n(\bar{z})^2

                    \large =\sum_{i=0}^n(z_i)^2-2\bar{z}(n\bar{z})+n(\bar{z})^2

                     \large =\sum_{i=0}^n(z_i)^2-n(\bar{z})^2

                     \large =\sum_{i=0}^n(z_i)^2-(\sqrt{n}\bar{z})^2

\large \sum_{i=0}^n(z_i)^2 是自由度为n的chi-square 分布

而对于\large (\sqrt{n}\bar{z})^2 ,我们先看\large \sqrt{n}\bar{z}的分布

\large E[(\sqrt{n}\bar{z})]=\frac{\sqrt{n}*0+\sqrt{n}*0+\dots+\sqrt{n}*0}{n}=0

\large Var[(\sqrt{n}\bar{z})]=\frac{(\sqrt{n}*1)^2+(\sqrt{n}*1)^2+\dots+(\sqrt{n}*1)^2}{n}=1

所以\large \sqrt{n}\bar{z}~N(0,1),可以看作是自由度为1的chi-square分布

所以 \large \frac{(n-1)S^2}{\sigma^2} 是自由度为n-1的chi-square分布

5 样本方差比值的分布

 

5.1 推导

通过条件我们知道

\large u=\frac{(n_1-1)S_1^2}{\sigma_1^2}\sim \chi^2(n_1-1) 

\large v=\frac{(n_2-1)S_2^2}{\sigma_2^2}\sim \chi^2(n_2-1)

F分布的定义为

那么

\large F=\frac{\frac{u}{n_1-1}}{\frac{v}{n_2-1}}=\frac{\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}}{n_1-1}}{\frac{\frac{(n_2-1)S_2^2}{\sigma_2^2}}{n_2-1}} =\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}} 是自由度为n1-1,n2-1的F分布  

 6 样本估计的标准

6.1 无偏性

 s1是无偏估计,s2是有偏估计

6.2 有效性 efficient

看的是它的“范围”

6.3 持续性 consistent

 

翻译一下就是样本量越大,范围越narrow

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值