运气的数学解释
一 问题
心理学中有一个类似的概念叫聚类错觉,它是指人们更倾向于将随机小样本中不可避免的“条纹”或“聚簇”状的随机分布考虑为某种具有统计学意义的“规律”。
图中是一些随机分布的点,你是否更倾向于注意其中聚拢在一起或者空白的那些区域?通常这些点的“不正常分布”区域会更吸引人们的注意,甚至让人产生并非随机数的疑虑。
举个栗子:假如你手里有10张红桃、10张黑桃共20张扑克牌,现尽量把牌洗乱,之后摊开发现有4张相同花色的牌连在一起,你是否觉得”牌没有洗开“?
事实上,出现4连张及以上的概率超过50%
二 解释
2.1 概念
-
H
H
H表示连续进行
n
n
n次独立重复试验,单次试验可能得到的结果的个数
- 抛硬币: H = 2 H=2 H=2
- 投骰子: H = 6 H=6 H=6
-
Z
(
n
)
Z(n)
Z(n)表示连续进行
n
n
n次独立重复试验,可能得到的互不重复的样本总个数
- Z ( n ) = H n Z(n)=H^n Z(n)=Hn
-
k
(
n
)
k(n)
k(n)表示
Z
(
n
)
Z(n)
Z(n)个样本中全部元素的总个数
- k ( n ) = n × Z ( n ) k(n)=n\times Z(n) k(n)=n×Z(n)
- 当有
H
i
≠
H
i
+
1
=
H
i
+
2
=
⋯
=
H
j
≠
H
j
+
1
H_i\neq H_{i+1}= H_{i+2} =\cdots=H_j \neq H_{j+1}
Hi=Hi+1=Hi+2=⋯=Hj=Hj+1时,游程即为
j
−
i
j-i
j−i
- i , j i,j i,j 表示:试验次数
- i , j i,j i,j 满足: 0 ≤ i ≤ j ≤ n 0\leq i\leq j\leq n 0≤i≤j≤n
2.2 公式
-
通过归纳演绎,马秀峰(2011)给出了游程长度的概率密度和概率分布计算公式:
{ f ( x ) = ( 1 − p ) p x − 1 [ 2 + ( 1 − p ) ( n − x − 1 ) ] 1 + ( 1 − p ) ( n − 1 ) , 1 ≤ x ≤ n f ( n ) = p n − 1 1 + ( 1 − p ) ( n − 1 ) , x = n ( 1 ) \left\{\begin{array}{l} f(x)=\frac{(1-p)p^{x-1}[2+(1-p)(n-x-1)]}{1+(1-p)(n-1)},1\leq x \leq n\\ f(n)=\frac{p^{n-1}}{1+(1-p)(n-1)},x=n\end{array}\right.\quad (1) {f(x)=1+(1−p)(n−1)(1−p)px−1[2+(1−p)(n−x−1)],1≤x≤nf(n)=1+(1−p)(n−1)pn−1,x=n(1)
F ( x ) = 1 + ( 1 − p ) ( n − x ) 1 + ( 1 − p ) ( n − 1 ) p x − 1 ( 2 ) F(x)=\frac{1+(1-p)(n-x)}{1+(1-p)(n-1)}p^{x-1}\quad (2) F(x)=1+(1−p)(n−1)1+(1−p)(n−x)px−1(2)
-
游程数量的概率密度和概率分布计算公式分别为(p=0.5):
f ( x , n ) = C n + 1 2 x 2 n ( 3 ) f(x,n)=\frac{C_{n+1}^{2x}}{2^n}\quad (3) f(x,n)=2nCn+12x(3)
F ( x , n ) = 1 2 n ∑ t = 0 x C n + 1 2 x ( 4 ) F(x,n)=\frac{1}{2^n}\sum\limits_{t=0}^x C_{n+1}^{2x}\quad (4) F(x,n)=2n1t=0∑xCn+12x(4)
-
当 n n n较大时,采用如下近似公式计算游程数量的概率密度:
$f(x)\approx q(x,n)=\frac{4}{\sqrt{2\pi(n+1)}}e^{- \frac{1}{2}(\frac{4x-n-1}{\sqrt{n+1}})^2} \quad(5) $
-
对 f ( x ) f(x) f(x)进行积分得到游程数量的分布函数 F ( x ) F(x) F(x)
2.3 结果
-
n = 100 n=100 n=100时,游程长度的概率密度与分布函数计算结果如图2~3所示
-
n = 100 , p = 0.5 n=100,p=0.5 n=100,p=0.5时,游程数量的概率密度与分布函数计算结果如图4~5所示
2.4 讨论
根据图 3 3 3列出的 100 100 100次不同概率独立重复试验结果中游程长度的分布情况,当 n = 20 n=20 n=20, p = 0.5 p=0.5 p=0.5时,计算得到游程长度 l ≥ 4 l\geq4 l≥4的概率为 F ( n = 20 , l ≥ 4 ) = 0.107 F(n=20,l\geq4)=0.107 F(n=20,l≥4)=0.107。
据此,前面所谓“ 4 4 4连张”的概率就有了具体的答案: F ( n = 20 , l ≥ 4 ) × ∑ t = 1 20 x q ( t ) f q ( x , t ) = 0.563 F(n=20,l\geq4)\times \sum\limits _{t=1}^{20} x_q(t)f_q(x,t)=0.563 F(n=20,l≥4)×t=1∑20xq(t)fq(x,t)=0.563。
式中:
- l l l表示游程长度 l e n g t h length length, q q q表示游程数量 q u a n t i t y quantity quantity
- x q ( t ) x_q(t) xq(t)表示游程出现次数, f q ( x , t ) f_q(x,t) fq(x,t)为相应概率,累乘后表示次数的期望
- 根据图 4 4 4, x q ( t ) x_q(t) xq(t)和 f q ( x , t ) f_q(x,t) fq(x,t)取值如表 1 1 1所示:
x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | … | 20 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
f(20,x) | 0.000 | 0.000 | 0.006 | 0.051 | 0.192 | 0.340 | 0.281 | 0.108 | 0.020 | 0.002 | 0.000 | 0.000 | … | 0.000 |
三 验证
方法:事实上,抛开公式,也可以采用蒙特卡罗(Monte Carlo)随机模拟方法得到上述结果;
过程:随机生成 20 × 1000 20×1000 20×1000个由 0 0 0和 1 1 1组成的矩阵,每一列代表一组 20 20 20次的独立重复试验,共 1000 1000 1000组;
结果:游程统计结果如表 2 2 2所示
length | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
times | 2776 | 1283 | 620 | 324 | 151 | 56 | 26 | 19 | 6 | 2 |
frequency | 2.776 | 1.283 | 0.620 | 0.324 | 0.151 | 0.056 | 0.026 | 0.019 | 0.006 | 0.002 |
simulated value | 0.527 | 0.244 | 0.118 | 0.062 | 0.029 | 0.011 | 0.005 | 0.004 | 0.001 | 0.000 |
Theoretical value | 0.524 | 0.250 | 0.119 | 0.057 | 0.027 | 0.013 | 0.006 | 0.003 | 0.001 | 0.001 |
- 第 1 1 1行:游程长度
- 第 2 2 2行:1000组试验每个长度的游程出现的次数
- 第 3 3 3行:1组试验中每个游程平均出现的次数
- 第 4 、 5 4、5 4、5行:对于一个游程,其长度为 x x x的概率,即游程长度的概率密度 f L ( n , x ) f_L(n,x) fL(n,x)
- f L ( n , x ) f_L(n,x) fL(n,x)的模拟值和理论值对比如图6所示, 1000 1000 1000组试验共产生游程 x ≥ 4 x\geq4 x≥4 的个数586个
- 进而可以得到,每洗好的20张牌,出现“4连张”以上的概率为 ∑ x = 4 11 p ( X = x ) = 0.586 \sum\limits _{x=4}^{11}p(X=x)=0.586 x=4∑11p(X=x)=0.586
随机分布不意味着均匀分布,总会出现一段时间内运气普遍比较好,而这反而会让人产生"运气不是随机分布"的错觉。
朱常坤
南京,2020年6月21日