1.Introduction
下面这个图是一个闭环的结构,通过数据,建立统计模型,并进行预测。
案例和资料主要引用[1][2]。
2.典型的离散分布
接下来两个部分,回顾了几个主要的模型结构。
2.1 几何分布
假设抽奖的抽中奖品的概率为p=0.2,抽到奖品,就停止抽取。根据常识,每次抽奖抽中的概率都是0.2,之前的结果不会对本次实验产生任何影响(memerylessness),用下图表示为:
抽到奖品所需要的次数X的概率为
P
(
X
=
n
)
=
p
(
1
−
p
)
n
−
1
P(X=n)=p(1-p)^{n-1}
P(X=n)=p(1−p)n−1
用图表示
图
片
来
自
于
[
1
]
\color{red}{图片来自于[1]}
图片来自于[1]
已知某人已经尝试过k次,还需要x次还能获取奖品的概率是多少?一共尝试了(k+x)次,为了防止变量混淆,设A是总共尝试的次数,B是已经尝试的次数
P
A
∣
B
(
k
+
x
∣
k
)
=
p
(
1
−
p
)
k
+
x
−
1
(
1
−
p
)
k
=
p
(
1
−
p
)
x
−
1
=
P
A
(
x
)
P_{A|B}(k+x|k)=\frac{p(1-p)^{k+x-1}}{(1-p)^{k}}=p(1-p)^{x-1}=P_{A}(x)
PA∣B(k+x∣k)=(1−p)kp(1−p)k+x−1=p(1−p)x−1=PA(x)
这个公式反映了几何分布具有memerylessness的特性。
2.1.2 几何分布的期望和方差
- 几何分布的期望
直接根据期望的定义计算几何分布的期望,非常复杂和繁琐。期望可以看成是mass position,可以将期望按照下图的分支进行分组,分别计算子期望( E [ X ∣ A n ] E[X|A_n] E[X∣An]),最后进行汇总。
几何分布中,下式中的N是无穷大的一个数,根据下式可以推导出 E [ x ] = 1 p E[x]=\frac{1}{p} E[x]=p1
E [ x ] = P ( A 1 ) E [ 1 ] + P ( A 2 ) E [ X ∣ A 2 ] = p + ( 1 − p ) ∑ 2 N x P X ∣ A 2 ( x ∣ A 2 ) = p + ( 1 − p ) ∑ 2 N x P X ( x − 1 ) = p + ( 1 − p ) ∑ 2 N ( ( x − 1 ) P X ( x − 1 ) + P X ( x − 1 ) ) = p + ( 1 − p ) ∑ 1 N − 1 x P ( x ) + ( 1 − p ) \begin{aligned} E[x] &=P(A_1)E[1]+P(A_2)E[X|A_2] \\ & = p+(1-p)\sum_2^{N}xP_{X|A2}(x|A_2) \\ & = p+(1-p)\sum_2^{N}xP_{X}(x-1) \\ & = p+(1-p)\sum_2^{N}((x-1)P_{X}(x-1)+P_{X}(x-1)) \\ & = p+(1-p)\sum_1^{N-1}xP_(x)+(1-p) \end{aligned} E[x]=P(A1)E[1]+P(A2)E[X∣A2]=p+(1−p)2∑NxPX∣A2(x∣A2)=p+(1−p)2∑NxPX(x−1)=p+(1−p)2∑N((x−1)PX(x−1)+PX(x−1))=p+(1−p)1∑N−1xP(x)+(1−p) - 几何分布的方差
计算方差按照 V a r ( x ) = E [ x 2 ] − ( E [ x ] ) 2 Var(x)=E[x^2]-(E[x])^2 Var(x)=E[x2]−(E[x])2公式进行计算, E [ x 2 ] E[x^2] E[x2]按照上面的方法计算,可以推导出
V a r ( X ) = 1 − p p 2 Var(X)=\frac{1-p}{p^2} Var(X)=p21−p
2.2 伯努利分布(binomial distribution)
假设某人参加答题比赛,但是这个人完全不会,每道题答对的概率为0.25,假设每道题都是独立的,假设一共答了10道题,统计答对的题。
P
(
X
=
x
)
=
(
10
x
)
p
x
(
1
−
p
)
10
−
x
P(X=x)=\binom{10}{x}p^x(1-p)^{10-x}
P(X=x)=(x10)px(1−p)10−x
2.2.1 伯努利分布的期望和方差
- 伯努利分布的期望
伯努利分布可以看成独立事件的叠加,先处理好单个事件的期望,叠加起来就是整个分布的期望。
E [ X 1 ] = p E[X_1]=p E[X1]=p
整个分布的期望
E [ X ] = E [ x 1 + x 2 + . . . + x n ] = E [ x 1 ] + E [ x 2 ] + . . . + E [ x n ] = n p \begin{aligned} E[X] &=E[x_1+x_2+...+x_n]\\ & =E[x_1]+E[x_2]+...+E[x_n] \\ & = np \end{aligned} E[X]=E[x1+x2+...+xn]=E[x1]+E[x2]+...+E[xn]=np - 伯努利分布的方差
单个事件的方差,根据定义很容易求出来是
V a r [ x 1 ] = E [ x 1 2 ] − ( E [ x 1 ] ) 2 = p − p 2 = p ( 1 − p ) \begin{aligned} Var[x_1]=E[x_1^2]-(E[x_1])^2=p-p^2=p(1-p) \end{aligned} Var[x1]=E[x12]−(E[x1])2=p−p2=p(1−p)
变量 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn是n给独立的事件(独立的变量),总体的分布可看成
V a r ( X ) = V a r ( x 1 ) + V a r ( x 2 ) + . . . + V a r ( x n ) = n p ( 1 − p ) Var(X)=Var(x_1)+Var(x_2)+...+Var(x_n)=np(1-p) Var(X)=Var(x1)+Var(x2)+...+Var(xn)=np(1−p)
3.3 泊松分布
伯努利分布有几个问题
- 如果次数大于10次以后,就开始变得非常难以计算
基于这两个原因,泊松分布给出了改进的框架
3.3.1 泊松分布的计算步骤
假设某个工厂,有很多机器,每周损坏机器5,下周有一批紧急的生产任务,希望损坏机器人的数目小于等于3,需要计算满足条件的概率,并根据概率做风险评估。
- step1: 统计之前的时间,每周平均损坏机器数目:5;
从伯努利分布的角度看,该工厂的N台机器,每台机器是否损坏满足伯努利分布,根据损坏机器数目,求得单台机器的损坏率
p = λ n p=\frac{\lambda}{n} p=nλ - step2:计算下周可能会顺坏3台机器的概率
从伯努利分布的角度出发,假设n无穷大
P X ( x ) = ( n x ) p x ( 1 − p ) n − x = n ! k ! ( n − k ) ! ( λ n ) x ( 1 − λ n ) n − x = n ! k ! ( n − k ) ! ( λ n ) x ( 1 − λ n ) n λ λ n ( n − x ) = n ! k ! ( n − k ) ! n x λ x e λ e − λ x n ≈ e λ λ x k ! \begin{aligned} P_X(x) & =\binom{n}{x}p^x(1-p)^{n-x} \\ & = \frac{n!}{k!(n-k)!} (\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{n-x} \\ & = \frac{n!}{k!(n-k)!} (\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{\frac{n}{\lambda}\frac{\lambda}{n}(n-x)} \\ & = \frac{n!}{k!(n-k)!n^x}\lambda ^xe^{\lambda}e^{\frac{-\lambda x}{n}} \\ & \approx \frac{e^\lambda \lambda^x}{k!} \end{aligned} PX(x)=(xn)px(1−p)n−x=k!(n−k)!n!(nλ)x(1−nλ)n−x=k!(n−k)!n!(nλ)x(1−nλ)λnnλ(n−x)=k!(n−k)!nxn!λxeλen−λx≈k!eλλx - step3: 使用泊松分布的条件
当 λ x \lambda x λx和n相比可以忽略不计的时候,可以使用泊松分布。 当 n > 50 , p < 0.1 , 用 泊 松 分 布 比 较 精 准 , 其 他 情 况 使 用 伯 努 利 分 布 \color{red}{当n>50,p<0.1,用泊松分布比较精准,其他情况使用伯努利分布} 当n>50,p<0.1,用泊松分布比较精准,其他情况使用伯努利分布
3.3.2 泊松分布的期望和方差
- 泊松分布的期望
λ \lambda λ是之前每周损坏机器的数目,就是我们的期望。
E [ x ] = λ E[x]=\lambda E[x]=λ - 泊松分布的方差
泊松分布是特殊的伯努利分布(n无穷大,p非常小),下面的推导仅仅作为一种直观理解。
E [ x ] = n p q = λ q ≈ λ E[x]=npq= \lambda q\approx \lambda E[x]=npq=λq≈λ
3.典型的连续分布
3.1 正态分布
3.1.1 伯努利分布、正态分布
- 用正态分布代替伯努利分布
上面提高的泊松分布只解决了当p很小的时候(p<0.1),n很大(n>50)的时候,计算伯努利分布的替代方案,但是如果n很大,p也很大怎么办。
我们发现当n很大,p很大的时候,伯努利分布的图像接近于正态分布(这个也不奇怪,正态分布就是从解决伯努利在N很大的情况下如何计算的问题中产生的)。
图 像 来 自 于 [ 1 ] \color{red}{图像来自于[1]} 图像来自于[1]
当 n p > 5 , n q > 5 , 正 态 分 布 可 以 很 好 的 替 代 伯 努 利 分 布 。 \color{red}{当np>5,nq>5,正态分布可以很好的替代伯努利分布。} 当np>5,nq>5,正态分布可以很好的替代伯努利分布。 - 用正态分布代替泊松分布
图1.
λ
=
5
\lambda = 5
λ=5, 图2
λ
=
20
\lambda=20
λ=20
当
λ
\lambda
λ大于15,可以用正态分布替代
P
(
λ
)
≈
N
(
λ
,
λ
)
P(\lambda) \approx N(\lambda,\lambda)
P(λ)≈N(λ,λ)
3.1.2 连续分布和离散分布转换
使用[1]中的例子,某人和别人玩猜题游戏,只猜是或者否,一共有12次猜题机会,假设该人完全瞎猜,满足伯努利分布B~(12, 0.5),猜对的题小于6题的概率。
P
X
(
x
<
6
)
=
P
X
(
0
)
+
P
X
(
1
)
+
P
X
(
2
)
+
P
X
(
3
)
+
P
X
(
4
)
+
P
X
(
5
)
=
0.387
P_X(x<6)=P_X(0)+P_X(1)+P_X(2)+P_X(3)+P_X(4)+P_X(5)=0.387
PX(x<6)=PX(0)+PX(1)+PX(2)+PX(3)+PX(4)+PX(5)=0.387
使用我们正态分布,N~(6, 3),P_X(x<6)=0.5,和伯努利分布计算的结果相差太大,再比较离散和连续分布的图像,发现这里正态分布
P
X
(
5.5
)
P_X(5.5)
PX(5.5)更能代表离散的伯努利分布的结果。
P
X
(
5.5
)
=
0.3859
P_X(5.5)=0.3859
PX(5.5)=0.3859
4.从数据中推导模型
4.1 Inference/statics
4.1.1 抽样
这里使用[1]中的例子,糖果加工厂,制造一种新的口香糖,需要知道口香糖味道保持的时间和分布。
该工厂不可能对所有样本进行统计,只能进行抽样,为了防止数据出现偏差,需要采用系统抽样的方法。
- step1:population
这里整个的poulation 是口香糖 - step2:sample unit
口香糖可能是单个为单位,也可能是好几片为一小盒为单位,或者是很多粒放一瓶为单位 - step3: 抽样
- 随机数抽样
- cluster sample
按照口香糖包装颜色,分成几类,从每一类中随机抽取。 - 等距抽样
如对所有样本的编号,采样抽取间隔1000,抽取(在学生论文查重的很常见)
4.1.2 根据抽样的样本计算均值和方差
p o p u l a t i o n , s a m p l e s 和 单 个 样 本 的 均 值 和 方 差 是 由 区 别 的 \color{red}{population,samples和单个样本的均值和方差是由区别的} population,samples和单个样本的均值和方差是由区别的
- population的均值和方差
将population的期望和方差为 μ , σ 2 \mu, \sigma^2 μ,σ2。 - samples 的期望和方差是
μ
^
,
σ
2
^
\hat{\mu},\hat{\sigma^2}
μ^,σ2^。
非常重要的是要搞清楚研究对象, 如 果 研 究 对 象 是 p o p u l a t i o n , 通 过 s a m p l e s 去 估 计 p o p u l a t i o n 的 分 布 。 \color{red}{如果研究对象是population, 通过samples去估计 population的分布。} 如果研究对象是population,通过samples去估计population的分布。
求样本集的期望,按照平均的数的定义
μ ^ = x 1 + x 2 + . . . + x n n \hat{\mu}=\frac{x_1+x_2+...+x_n}{n} μ^=nx1+x2+...+xn
求样本集的方差,用样本集去估计population的方差,往往会偏小,所有在分母上,选用n-1,让记过更加接近population的方差。
σ 2 ^ = ( x 1 − μ ^ ) 2 + ( x 2 − μ ^ ) 2 + . . . + ( x n − μ ^ ) 2 n − 1 \hat{\sigma^2}=\frac{(x_1-\hat{\mu})^2+(x_2-\hat{\mu})^2+...+(x_n-\hat{\mu})^2}{n-1} σ2^=n−1(x1−μ^)2+(x2−μ^)2+...+(xn−μ^)2
如 果 研 究 对 象 就 是 s a m p l e s 本 身 \color{red}{如果研究对象就是samples本身} 如果研究对象就是samples本身,比如我就想看看买30个糖果,平均每个袋里有多少个糖果,这个时候研究对象就不是population了。这是因为样本越大,越接近期望。
X ‾ = X 1 + X 2 + . . . + X n n \overline{X}=\frac{X_1+X_2+...+X_n}{n} X=nX1+X2+...+Xn
计算 X ‾ \overline{X} X期望
E [ X ‾ ] = E [ X 1 + X 2 + . . . + X n n ] = E [ X 1 ] + E [ X 2 ] + . . . + E [ X n ] n = μ E[\overline{X}]=E[\frac{X_1+X_2+...+X_n}{n}]=\frac{E[X_1]+E[X_2]+...+E[X_n]}{n}=\mu E[X]=E[nX1+X2+...+Xn]=nE[X1]+E[X2]+...+E[Xn]=μ
计算 X ‾ \overline{X} X的方差
v a r [ X ‾ ] = v a r [ X 1 + X 2 + . . . + X n n ] = 1 n σ 2 var[\overline{X}]=var[\frac{X_1+X_2+...+X_n}{n}]=\frac{1}{n}\sigma^2 var[X]=var[nX1+X2+...+Xn]=n1σ2 - 单个样本的期望和方差
引文单个样本是对整个分布的观测,所以期望和方差就是整个population的期望和方差
E [ X i ] = μ V a r [ X i ] = σ 2 \begin{aligned} E[X_i] &=\mu \\ Var[X_i] &=\sigma^2 \end{aligned} E[Xi]Var[Xi]=μ=σ2
4.2 根据样本估计某些情况发生的概率
如果我们知道population满足正态分布(绝大数的情况),通过样本的数据,得到具体的分布,再对新的samples进行预测。
4.2.1 估计单个样本的均值
需要统计糖果工厂新产品中每个糖果袋中糖果的数目,这个工厂宣称,每个袋中糖果的数量平均为10,方差为1。小明买了30袋,但是他平均每袋只有8.5个,他怀疑厂家在虚假宣传。
我们先从理论上分析
X
‾
=
X
1
+
X
2
+
.
.
.
+
X
n
n
\overline{X}=\frac{X_1+X_2+...+X_n}{n}
X=nX1+X2+...+Xn
计算
X
‾
\overline{X}
X期望
E
[
X
‾
]
=
E
[
X
1
+
X
2
+
.
.
.
+
X
n
n
]
=
E
[
X
1
]
+
E
[
X
2
]
+
.
.
.
+
E
[
X
n
]
n
=
μ
=
10
E[\overline{X}]=E[\frac{X_1+X_2+...+X_n}{n}]=\frac{E[X_1]+E[X_2]+...+E[X_n]}{n}=\mu=10
E[X]=E[nX1+X2+...+Xn]=nE[X1]+E[X2]+...+E[Xn]=μ=10
计算
X
‾
\overline{X}
X的方差
v
a
r
[
X
‾
]
=
v
a
r
[
X
1
+
X
2
+
.
.
.
+
X
n
n
]
=
1
n
σ
2
=
1
30
var[\overline{X}]=var[\frac{X_1+X_2+...+X_n}{n}]=\frac{1}{n}\sigma^2=\frac{1}{30}
var[X]=var[nX1+X2+...+Xn]=n1σ2=301
理论上30袋的平均值应该为10(因为是我们的期望),并且如果实验的袋数越多,结果越接近10袋。
- 大样本的情况
我们现在有30袋,我们这个样本组成了一个新的population,符合正态分布
X ‾ ∼ N ( μ , σ 2 / n ) \overline{X} \sim N(\mu, \sigma^2/n) X∼N(μ,σ2/n)
我们这种情况发生的概率,先转换成标准正态分布 z = 8.5 − 10 σ / n z=\frac{8.5-10}{\sigma/\sqrt{n}} z=σ/n8.5−10
如果发现我们这种情况发生的概率是小于0.05,我们可以以此作为理由推翻厂家的宣传。 - 小样本的情况
如果现在我们仅仅只有10袋,不符合正态分布,认为我们的样本是student T分布
X ‾ ∼ t ( v ) v = n − 1 \begin{aligned} \overline{X} \sim t(v) \\ v=n-1 \end{aligned} X∼t(v)v=n−1
还是需要将 X ‾ \overline{X} X按照标准正态分布一样,转换成标准student T 分布(方便后面的查表计算)
T = X ‾ − μ σ / n T=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} T=σ/nX−μ
根据(T,v)可以查表,得到我们这种情况发生的概率,如果小于0.05,我们有理由去质疑厂家的宣传是虚假的。
4.2.2 估计单个样本中的比例
该工厂生产的某种糖果系列,一个糖果盒中有100个糖果,每个糖果盒有4种颜色不同但数量相同的糖果,每种颜色糖果的口味不同。
某人购买了30个糖果盒,每个糖果盒红色的个数的概率满足伯努利分布。
糖果盒红色糖果的比例的平均值
P
s
‾
=
P
s
1
+
P
s
2
+
.
.
.
+
P
s
n
n
\overline{P_s}=\frac{P_{s1}+P_{s2}+...+P_{sn}}{n}
Ps=nPs1+Ps2+...+Psn
红色糖果比例的期望为:
E
[
P
s
‾
]
=
E
[
P
s
1
+
P
s
2
+
.
.
.
+
P
s
n
n
]
=
E
[
X
]
n
=
n
p
n
E[\overline{P_s}]=E[\frac{P_{s1}+P_{s2}+...+P_{sn}}{n}]=\frac{E[X]}{n}=\frac{np}{n}
E[Ps]=E[nPs1+Ps2+...+Psn]=nE[X]=nnp
红色糖果比例的方差为:
V
a
r
[
P
s
‾
]
=
V
a
r
[
P
s
1
+
P
s
2
+
.
.
.
+
P
s
n
n
]
=
n
p
q
n
2
Var[\overline{P_s}]=Var[\frac{P_{s1}+P_{s2}+...+P_{sn}}{n}]=\frac{npq}{n^2}
Var[Ps]=Var[nPs1+Ps2+...+Psn]=n2npq
因为我们的样本有30个,按照正态分布处理,计算每袋中红色小于15的概率。
需
要
注
意
将
离
散
变
量
转
换
到
连
续
变
量
,
需
要
加
精
度
补
偿
,
这
里
是
0.5
个
糖
果
\color{red}{需要注意将离散变量转换到连续变量,需要加精度补偿,这里是0.5个糖果}
需要注意将离散变量转换到连续变量,需要加精度补偿,这里是0.5个糖果
4.3 置信区间
回到糖果工厂,每个糖果袋中有100个糖果,工厂已经知道糖果味觉的持续时间为65min,方差为25。那么一个糖果袋中平均每个糖果的味觉持续时间为多少呢?
最简单的方法是用期望来表示,即标称每个糖果袋中的糖果味觉持续时间为65min,不同消费者购买商品后,可能体验会有很大的差别,有些消费者可能不到60min,为了抵消消费者的顾虑,用置信区间描述95%发生的区间。
- 置信区间和样本量有很大关系(样本量越大越接近期望的)
E [ X ‾ ] = μ V a r [ X ‾ ] = σ 2 n \begin{aligned} E[\overline{X}] &=\mu \\ Var[\overline{X}] &= \frac{\sigma^2}{n} \end{aligned} E[X]Var[X]=μ=nσ2
将这个样本集看成是正态分布,计算置信上下区间。
P ( a < X < b ) = 0.95 P(a<X<b) = 0.95 P(a<X<b)=0.95
References
[1] Dawn Griffiths. “Head First Statistics.” oreilly vlg gmbh & co (2009).
[2] https://ocw.mit.edu/resources/res-6-012-introduction-to-probability-spring-2018/