设事件 A A A发生的概率为 θ \theta θ,为了估计 θ \theta θ,进行了 n n n次独立观察,其中事件A出现的次数为 m m m。
统计量
样本均值:
x ‾ = 1 n ∑ i = 1 n x i = m n \overline{x} = \frac{1}{n}\sum_{i=1}^nx_i = \frac{m}{n} x=n1∑i=1nxi=nm
样本方差:
s n 2 = 1 n ∑ i = 1 n ( x i − x ‾ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^n(x_i - \overline{x})^2 sn2=n1∑i=1n(xi−x)2
= 1 n ∑ i = 1 n ( x i 2 − 2 x i x ‾ + x ‾ 2 ) =\frac{1}{n}\sum_{i=1}^n(x_i^2 - 2x_i\overline{x} + \overline{x}^2) =n1∑i=1n(xi2−2xix+x2)
= 1 n ( ∑ i = 1 n x i 2 − 2 x ‾ ∑ i = 1 n x i + ∑ i = 1 n x ‾ 2 ) =\frac{1}{n}(\sum_{i=1}^nx_i^2 - 2\overline{x}\sum_{i=1}^nx_i + \sum_{i=1}^n\overline{x}^2) =n1(∑i=1nxi2−2x∑i=1nxi+∑i=1nx2)
= 1 n ( m − 2 m x ‾ + n x ‾ 2 ) =\frac{1}{n}(m - 2m\overline{x} + n\overline{x}^2) =n1(m−2mx+nx2)
= 1 n ( m − 2 m m n + n m 2 n 2 ) =\frac{1}{n}(m - 2m\frac{m}{n} + n\frac{m^2}{n^2}) =n1(m−2mnm+nn2m2)
= m n ( 1 − m n ) =\frac{m}{n}(1 - \frac{m}{n}) =nm(1−nm)
= x ‾ ( 1 − x ‾ ) =\overline{x}(1-\overline{x}) =x(1−x)
大样本情况下的区间估计
大样本情况下,样本均值 x ‾ \overline{x} x的渐近分布为 N ( θ , σ 2 / n ) N(\theta, \sigma^2/n) N(θ,σ2/n)。因此有 x ‾ − θ σ / n ∼ N ( 0 , 1 ) \frac{\overline{x}-\theta}{\sigma/\sqrt{n}} \sim N(0, 1) σ/nx−θ∼N(0,1)
p ( ∣ x ‾ − θ σ / n ∣ ≤ Z α / 2 ) = 1 − α p(|\frac{\overline{x}-\theta}{\sigma/\sqrt{n}}| \le Z_{\alpha/2}) = 1-\alpha p(∣σ/nx−θ∣≤Zα/2)=1−α
p ( x ‾ − Z α / 2 σ n ≤ θ ≤ x ‾ + Z α / 2 σ n ) = 1 − α p(\overline{x}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le\theta\le \overline{x}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}) = 1 - \alpha p(x−Zα/2nσ≤θ≤x+Zα/2nσ)=1−α
在总体标准差 σ \sigma σ未知情况下,用样本标准差 s n s_n sn代替,得到:
p ( x ‾ − Z α / 2 x ‾ ( 1 − x ‾ ) n ≤ μ ≤ x ‾ + Z α / 2 x ‾ ( 1 − x ‾ ) n ) = 1 − α p(\overline{x}-Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}\le\mu\le \overline{x}+Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}) = 1 - \alpha p(x−Zα/2nx(1−x)≤μ≤x+Zα/2nx(1−x))=1−α
得到置信度为 1 − α 1-\alpha 1−α的区间估计 [ x ‾ − Z α / 2 x ‾ ( 1 − x ‾ ) n , x ‾ + Z α / 2 x ‾ ( 1 − x ‾ ) n ] [\overline{x}-Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}, \overline{x}+Z_{\alpha/2}\sqrt{\frac{\overline{x}(1-\overline{x})}{n}}] [x−Zα/2nx(1−x),x+Zα/2nx(1−x)]
贝叶斯估计
贝叶斯学派最基本的观点是:任一未知量 θ \theta θ都可看做随机变量,可用一个概率分布去描述,这个分布称为先验分布。设 θ \theta θ 的先验分布为 B e ( a , b ) Be(a, b) Be(a,b)分布:
π ( θ ) = { Γ ( a + b ) Γ ( a ) Γ ( b ) θ a − 1 ( 1 − θ ) b − 1 , 0 < θ < 1 0 , o t h e r \begin{equation} \pi(\theta) = \left\{ \begin{aligned} \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}, 0 < \theta < 1\\ 0, other \end{aligned} \right. \end{equation} π(θ)=⎩ ⎨ ⎧Γ(a)Γ(b)Γ(a+b)θa−1(1−θ)b−1,0<θ<10,other
p ( x ∣ θ ) = ( n x ) θ x ( 1 − θ ) n − x , x = 0 , 1 , . . . , n p(x|\theta)=(\frac{n}{x})\theta^x(1-\theta)^{n-x}, x=0,1,...,n p(x∣θ)=(xn)θx(1−θ)n−x,x=0,1,...,n
h ( x , θ ) = p ( x ∣ θ ) π ( θ ) = ( n x ) Γ ( a + b ) Γ ( a ) Γ ( b ) θ a + x − 1 ( 1 − θ ) n + b − x − 1 , x = 0 , 1 , . . . , n ; 0 < θ < 1 h(x,\theta) = p(x|\theta)\pi(\theta) = (\frac{n}{x})\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a+x-1}(1-\theta)^{n + b -x-1}, x=0,1,...,n;0<\theta < 1 h(x,θ)=p(x∣θ)π(θ)=(xn)Γ(a)Γ(b)Γ(a+b)θa+x−1(1−θ)n+b−x−1,x=0,1,...,n;0<θ<1
π ( θ ∣ x ) = h ( x , θ ) ∫ o 1 h ( x , θ ) d θ = Γ ( a + b + n ) Γ ( a + x ) Γ ( b + n − x ) θ a + x − 1 ( 1 − θ ) b + n − x − 1 , 0 < θ < 1 \pi(\theta|x) = \frac{h(x,\theta)}{\int_{o}^1h(x,\theta)d\theta} = \frac{\Gamma(a+b+n)}{\Gamma(a+x)\Gamma(b+n-x)}\theta^{a+x-1}(1-\theta)^{b+n-x-1},0<\theta<1 π(θ∣x)=∫o1h(x,θ)dθh(x,θ)=Γ(a+x)Γ(b+n−x)Γ(a+b+n)θa+x−1(1−θ)b+n−x−1,0<θ<1
可以看出后验分布为 B e ( a + x , b + n − x ) Be(a+x, b+n-x) Be(a+x,b+n−x),结合了先验分布,样本信息,总体信息。
(1). 假设我们对 θ \theta θ有一些了解,比如历史数据中观察到若干个值 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_n θ1,θ2,...,θn。由此可算得先验均值和先验方差:
θ ‾ = 1 n ∑ i = 1 n θ i \overline{\theta}=\frac{1}{n}\sum_{i=1}^n\theta_i θ=n1∑i=1nθi
s n 2 = 1 n ∑ i = 1 n ( θ i − θ ‾ ) 2 s_{n}^2=\frac{1}{n}\sum_{i=1}^n(\theta_i-\overline{\theta})^2 sn2=n1∑i=1n(θi−θ)2
由于beta分布的均值为方差分别为:
E ( θ ) = a a + b E(\theta)=\frac{a}{a+b} E(θ)=a+ba
V a r ( θ ) = a b ( a + b ) 2 ( a + b + 1 ) Var(\theta)=\frac{ab}{(a+b)^2(a+b+1)} Var(θ)=(a+b)2(a+b+1)ab
则令
E ^ ( θ ) = θ ‾ , V a r ^ ( θ ) = s n 2 \hat{E}(\theta) = \overline{\theta}, \hat{Var}(\theta)=s_n^2 E^(θ)=θ,Var^(θ)=sn2
得到a和b的矩估计值:
a ^ = θ ‾ [ ( 1 − θ ‾ ) θ ‾ s n 2 − 1 ] \hat{a} = \overline{\theta}[\frac{(1-\overline{\theta})\overline{\theta}}{s_n^2}-1] a^=θ[sn2(1−θ)θ−1]
b ^ = ( 1 − θ ‾ ) [ ( 1 − θ ‾ ) θ ‾ s n 2 − 1 ] \hat{b}=(1-\overline{\theta})[\frac{(1-\overline{\theta})\overline{\theta}}{s_n^2} - 1] b^=(1−θ)[sn2(1−θ)θ−1]
(2). 假设我们对 θ \theta θ了解很少,可以假设 θ \theta θ的先验分布为0,1之间的均匀分布,也就是 θ ∼ U ( 0 , 1 ) = B e ( 1 , 1 ) \theta \sim U(0, 1) = Be(1, 1) θ∼U(0,1)=Be(1,1):
π ( θ ∣ x ) = Γ ( n + 2 ) Γ ( 1 + x ) Γ ( 1 + n − x ) θ 1 + x − 1 ( 1 − θ ) 1 + n − x − 1 , 0 < θ < 1 \pi(\theta|x)=\frac{\Gamma(n+2)}{\Gamma(1+x)\Gamma(1+n-x)}\theta^{1+x-1}(1-\theta)^{1+n-x-1},0<\theta<1 π(θ∣x)=Γ(1+x)Γ(1+n−x)Γ(n+2)θ1+x−1(1−θ)1+n−x−1,0<θ<1
贝叶斯统计学与经典统计学的差别自安于是否利用了先验信息。贝叶斯统计在重视总体信息和样本信息的同时,加入了先验信息的收集、挖掘和加工,使它量化,形成先验分布,加入先验分布,以提高统计推断的质量。