第二次任务

目录

  • 中心极限定理
  • 随机抽样
  • 置信区间

第一部分—中心极限定理

中心极限定理是统计学中的一个非常重要的定理,与大数定理描述某个值的收敛趋势不同,中心极限定理描述的是某种形式的随机变量之和的分布。

什么是中心极限定理

中心极限定理指的是给定一个任意分布的总体,从总体中随机抽取样本量为n的样本,一共抽取N次,然后求出N组样本的均值,这些样本的均值的分布接近正态分布。简而言之,不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
举个小例子:比如要统计中国人的身高,想知道中国人的平均身高。一个一个的量肯定是不现实的,所以需要抽样调查,抽取一定容量的样本,比如每组抽取100个人,一共抽取5000组,求出每组个体的平均身高,根据中心极限定理,这些平均身高呈现出正态分布。数据越多,越接近正态分布。最后,我们就可以用样本均值来估计总体的均值。
注:使用中心极限定理时,并不要求总体本身服从正态分布,可以是任意分布,每组的容量要足够大,但也不要太大,一般认为是大于30即可

第二部分—随机抽样

我们想研究一个总体的某些参数,比如说,均值(平均特征)、方差(分散特征)、中位数、众数,不可能把总体的每一个个体都一一研究,只能抽样,抽取的样本能代表总体,有两个条件:一是抽样的这个个体必须是随机的;二是样本中的每个个体被抽中的概率相同。所有顾名思义,“随机抽样”。比如,我们抽取了一个样本量为n的随机样本,即为 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,,Xn,其中,每个 X i X_{i} Xi,i=1,2,…,n,为一个服从总体分布的随机变量,而每一个随机变量都是独立同分布的。一般而言,在概率论中,我们都假设总体服从某一分布,然后研究它的特性和相关计算。虽然我们不知道总体的分布,但它却是本身存在的,我们做抽样,就是要用抽取样本的特性来估计总体的特性。我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。
我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:
在这里插入图片描述
总体的参数,比如,均值,方差都是固定值,但是抽取样本的统计量,根据抽取的样本的变化,会得到不同的结果,进一步说,抽样统计量是一个随机变量,而且是服从总体分布的随机变量,我们将抽样统计量的分布情况,叫做抽样分布
点估计量:所谓点估计就是由样本x1,x2,…xn确定一个统计量 用它来估计总体的未知参数 ,称为总体参数的估计量。当具体的样本抽出后,可求出样本参数的值。用它做为总体参数的估计值,称做总体参数的点估计,实际上它就是总体未知参数的近似值。

总体均值的点估计量

用样本均值估计总体均值,即 μ ^ = x ˉ \hat{\mu }=\bar{x} μ^=xˉ
其中,样本均值 x ˉ = ∑ x n \bar{x}=\frac{\sum x}{n} xˉ=nx

总体方差的点估计量

*不能有惯性思维,认为样本均值可以估计总体均值,那样本方差就可以估计总体方差。Why?因为数据集的方差所度量的是数值与均值的偏离程度,样本所含的数据量一般要远远小于总体所包含的数据量,因此,与总体中的数值偏离均值的程度相比,样本中的数据更有可能分布在均值周围,也就是说,样本包含极端值的可能性较小,所以样本方差估计的结果会偏小
一般的,我们用, σ 2 ^ = ∑ ( x − x ˉ ) 2 n − 1 \hat{\sigma ^{2}}=\frac{\sum (x-\bar{x})^{2}}{n-1} σ2^=n1(xxˉ)2
σ 2 ^ \hat{\sigma ^{2}} σ2^为基于样本的总体方差点估计量,这个公式与样本的方差公式很像,但比样本方差更接近总体方差。
总体方差的点估计量通常用 s 2 s^{2} s2表示,有 σ 2 ^ = s 2 \hat{\sigma ^{2}}=s^{2} σ2^=s2其中, s 2 = ∑ ( x − x ˉ ) 2 n − 1 s^{2}=\frac{\sum (x-\bar{x})^{2}}{n-1} s2=n1(xxˉ)2

均值的抽样分布

我们从所有的样本中得到的样本均值形成一个分布,即为均值的抽样分布。设x1,x2,x3,…,xn为X的独立观察结果,因此,每一个观察结果具有相同的期望和方差。之前,讲过独立观察结果的期望和方差的计算方法。
首先,写出 x ˉ \bar{x} xˉ的计算公式 x ˉ = X 1 + X 2 + ⋯ + X n n \bar{x}=\frac{X_{1}+X_{2}+\cdots +X_{n}}{n} xˉ=nX1+X2++Xn期望 E ( x ˉ ) E(\bar{x}) E(xˉ) E ( x ˉ ) = E ( X 1 + X 2 + ⋯ + X n n ) E(\bar{x})=E(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n}) E(xˉ)=E(nX1+X2++Xn)
最后有, E ( X ˉ ) = 1 n ( n μ ) = μ E(\bar{X})=\frac{1}{n}(n\mu )=\mu E(Xˉ)=n1(nμ)=μ
同理,方差 σ 2 \sigma ^{2} σ2的计算公式为 V a r ( X ˉ ) = V a r ( X 1 + X 2 + ⋯ + X n n ) = V a r ( X 1 + X 2 + ⋯ X n ) n 2 Var(\bar{X})=Var(\frac{X_{1}+X_{2}+\cdots +X_{n}}{n})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}} Var(Xˉ)=Var(nX1+X2++Xn)=n2Var(X1+X2+Xn)
最后有, V a r ( X ˉ ) = V a r ( X 1 + X 2 + ⋯ X n ) n 2 = σ 2 n Var(\bar{X})=\frac{Var(X_{1}+X_{2}+\cdots X_{n})}{n^{2}}=\frac{\sigma ^{2}}{n} Var(Xˉ)=n2Var(X1+X2+Xn)=nσ2
根据中心极限定理,如果X的样本很大,则 X ˉ \bar{X} Xˉ的分布近似为正态分布。
1.二项分布的均值:
如果有 X ∼ B ( n , p ) X\sim B(n,p) XB(n,p),其中n大于30(此处我在前面的中心极限定理里强调过),我们已经知道, μ = n p , σ 2 = n p ( 1 − p ) \mu =np,\sigma ^{2}=np(1-p) μ=np,σ2=np(1p),根据中心极限定理,有, X ˉ ∼ N ( n p , p ( 1 − p ) ) \bar{X}\sim N(np,p(1-p)) XˉN(np,p(1p))
2.泊松分布的均值:
如果有 X ∼ P o ( λ ) X\sim Po(\lambda ) XPo(λ),n大于30,同时, μ = σ 2 = λ \mu=\sigma ^{2}=\lambda μ=σ2=λ,根据中心极限定理,有, X ˉ ∼ N ( λ , λ n ) \bar{X}\sim N(\lambda,\frac{\lambda }{n}) XˉN(λ,nλ)

第三部分—置信区间

为什么要引进置信区间

当总体的规模较大时,我们常常用采用抽样统计的方法,用点估计量估计总体均值、方差。但对于研究数学的人来说,这样做似乎不太严谨,样本的选取也会影响最后的结果。那我们想,与其给出一个精确值作为总体均值的估计值,不如采用另外一种方法,指定一个区间,使得总体均值在这个区间内。

置信水平和置信区间

1. 定义
设总体X的分布函数F(X; θ \theta θ), θ \theta θ未知,对给定值 α ( ( 0 &lt; α &lt; 1 ) ) \alpha((0&lt;\alpha&lt;1) ) α((0<α<1)),有两个统计量 θ ^ L = θ ^ L ( X 1 , ⋯ &ThinSpace; , X n ) , \hat{\theta }_{L}=\hat{\theta }_{L}(X_{1},\cdots ,X_{n}), θ^L=θ^L(X1,,Xn) θ ^ U = θ ^ U ( X 1 , ⋯ &ThinSpace; , X n ) , \hat{\theta }_{U}=\hat{\theta }_{U}(X_{1},\cdots ,X_{n}), θ^U=θ^U(X1,,Xn)使得 P { θ ^ L ( X 1 , ⋯ &ThinSpace; , X n ) &lt; θ &lt; θ ^ U ( X 1 , ⋯ &ThinSpace; , X n ) } ≥ 1 − α P\left \{ \hat{\theta }_{L}(X_{1},\cdots ,X_{n})&lt; \theta &lt; \hat{\theta }_{U}(X_{1},\cdots ,X_{n}) \right \}\geq 1-\alpha P{θ^L(X1,,Xn)<θ<θ^U(X1,,Xn)}1α ( θ ^ L , θ ^ U ) (\hat{\theta }_{L},\hat{\theta }_{U}) (θ^L,θ^U)称为 θ \theta θ的置信水平为 1 − α 1-\alpha 1α的双侧置信区间; θ ^ L , θ ^ U \hat{\theta }_{L},\hat{\theta }_{U} θ^L,θ^U分别为双置信下限和双置信上限。
2.求解置信区间

  1. 选择总体统计量
  2. 求出其抽样分布
  3. 决定置信水平
  4. 求出置信上下限

举个栗子:
比如,我们测试了一款糖果的口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟。现在我们要求出口味持续时间均值的置信区间。

  1. 选择总体统计量,这里我们选择为口香糖口味持续时间的均值构建一个置信区间,就是为总体均值 μ \mu μ构建一个置信区间。
  2. 求出所选统计量的抽样分布。根据前面的知识,我们已经知道,均值的抽样分布的期望和方差为: E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ V a r ( X ˉ ) = σ 2 n Var(\bar{X})=\frac{\sigma ^{2}}{n} Var(Xˉ)=nσ2 μ \mu μ的值未知, σ 2 \sigma ^{2} σ2的值可以根据样本进行估计。此时 X ˉ ∼ N ( μ , s 2 n ) \bar{X}\sim N(\mu ,\frac{s^{2}}{n}) XˉN(μ,ns2)
  3. 决定置信水平。置信水平说明这个置信区间包含总体统计量的可能性大小。这里设置为95%,表明总体均值处于置信区间中的概率为0.95.置信区间越宽,置信区间包含总体的几率越大。但置信区间太宽的话,就会失去意义。
  4. 求出置信上下限。通过计算,我们知道, X ˉ ∼ N ( μ , 0.25 ) \bar{X}\sim N(\mu ,0.25) XˉN(μ,0.25)在这里插入图片描述
    图片来源:http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml
    利用 X ˉ \bar{X} Xˉ的分布我们可以求出a和b的值。为了能够利用正态表,先要对 X ˉ \bar{X} Xˉ进行标准化, Z = X ˉ − μ 0.25 Z=\frac{\bar{X}-\mu }{\sqrt{0.25}} Z=0.25 Xˉμ其中, Z ∼ Z\sim Z N(0,1)
    此时,P(a<Z<b)=0.95.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值