运气的数学解释

运气的数学解释

一 问题

心理学中有一个类似的概念叫聚类错觉,它是指人们更倾向于将随机小样本中不可避免的“条纹”或“聚簇”状的随机分布考虑为某种具有统计学意义的“规律”。

NVd8eJ.png

图中是一些随机分布的点,你是否更倾向于注意其中聚拢在一起或者空白的那些区域?通常这些点的“不正常分布”区域会更吸引人们的注意,甚至让人产生并非随机数的疑虑。

举个栗子:假如你手里有10张红桃、10张黑桃共20张扑克牌,现尽量把牌洗乱,之后摊开发现有4张相同花色的牌连在一起,你是否觉得”牌没有洗开“?

事实上,出现4连张及以上的概率超过50%

二 解释

2.1 概念

  1. H H H表示连续进行 n n n次独立重复试验,单次试验可能得到的结果的个数
    • 抛硬币: H = 2 H=2 H=2
    • 投骰子: H = 6 H=6 H=6
  2. Z ( n ) Z(n) Z(n)表示连续进行 n n n次独立重复试验,可能得到的互不重复的样本总个数
    • Z ( n ) = H n Z(n)=H^n Z(n)=Hn
  3. k ( n ) k(n) k(n)表示 Z ( n ) Z(n) Z(n)个样本中全部元素的总个数
    • k ( n ) = n × Z ( n ) k(n)=n\times Z(n) k(n)=n×Z(n)
  4. 当有 H i ≠ H i + 1 = H i + 2 = ⋯ = H j ≠ H j + 1 H_i\neq H_{i+1}= H_{i+2} =\cdots=H_j \neq H_{j+1} Hi=Hi+1=Hi+2==Hj=Hj+1时,游程即为 j − i j-i ji
    • i , j i,j i,j 表示:试验次数
    • i , j i,j i,j 满足: 0 ≤ i ≤ j ≤ n 0\leq i\leq j\leq n 0ijn

2.2 公式

  1. 通过归纳演绎,马秀峰(2011)给出了游程长度的概率密度和概率分布计算公式:

    { f ( x ) = ( 1 − p ) p x − 1 [ 2 + ( 1 − p ) ( n − x − 1 ) ] 1 + ( 1 − p ) ( n − 1 ) , 1 ≤ x ≤ n f ( n ) = p n − 1 1 + ( 1 − p ) ( n − 1 ) , x = n ( 1 ) \left\{\begin{array}{l} f(x)=\frac{(1-p)p^{x-1}[2+(1-p)(n-x-1)]}{1+(1-p)(n-1)},1\leq x \leq n\\ f(n)=\frac{p^{n-1}}{1+(1-p)(n-1)},x=n\end{array}\right.\quad (1) {f(x)=1+(1p)(n1)(1p)px1[2+(1p)(nx1)],1xnf(n)=1+(1p)(n1)pn1,x=n(1)

    F ( x ) = 1 + ( 1 − p ) ( n − x ) 1 + ( 1 − p ) ( n − 1 ) p x − 1 ( 2 ) F(x)=\frac{1+(1-p)(n-x)}{1+(1-p)(n-1)}p^{x-1}\quad (2) F(x)=1+(1p)(n1)1+(1p)(nx)px1(2)

  2. 游程数量的概率密度和概率分布计算公式分别为(p=0.5):

    f ( x , n ) = C n + 1 2 x 2 n ( 3 ) f(x,n)=\frac{C_{n+1}^{2x}}{2^n}\quad (3) f(x,n)=2nCn+12x(3)

    F ( x , n ) = 1 2 n ∑ t = 0 x C n + 1 2 x ( 4 ) F(x,n)=\frac{1}{2^n}\sum\limits_{t=0}^x C_{n+1}^{2x}\quad (4) F(x,n)=2n1t=0xCn+12x(4)

  3. n n n较大时,采用如下近似公式计算游程数量的概率密度:

    $f(x)\approx q(x,n)=\frac{4}{\sqrt{2\pi(n+1)}}e^{- \frac{1}{2}(\frac{4x-n-1}{\sqrt{n+1}})^2} \quad(5) $

  4. f ( x ) f(x) f(x)进行积分得到游程数量的分布函数 F ( x ) F(x) F(x)

2.3 结果

  1. n = 100 n=100 n=100时,游程长度的概率密度与分布函数计算结果如图2~3所示

    NVdlyF.png NVd1L4.png
  2. n = 100 , p = 0.5 n=100,p=0.5 n=100p=0.5时,游程数量的概率密度与分布函数计算结果如图4~5所示

    NVdQQU.png NVdKzT.png

2.4 讨论

根据图 3 3 3列出的 100 100 100次不同概率独立重复试验结果中游程长度的分布情况,当 n = 20 n=20 n=20 p = 0.5 p=0.5 p=0.5时,计算得到游程长度 l ≥ 4 l\geq4 l4的概率为 F ( n = 20 , l ≥ 4 ) = 0.107 F(n=20,l\geq4)=0.107 F(n=20,l4)=0.107

据此,前面所谓“ 4 4 4连张”的概率就有了具体的答案: F ( n = 20 , l ≥ 4 ) × ∑ t = 1 20 x q ( t ) f q ( x , t ) = 0.563 F(n=20,l\geq4)\times \sum\limits _{t=1}^{20} x_q(t)f_q(x,t)=0.563 F(n=20,l4)×t=120xq(t)fq(x,t)=0.563

式中:

  • l l l表示游程长度 l e n g t h length length q q q表示游程数量 q u a n t i t y quantity quantity
  • x q ( t ) x_q(t) xq(t)表示游程出现次数, f q ( x , t ) f_q(x,t) fq(x,t)为相应概率,累乘后表示次数的期望
  • 根据图 4 4 4 x q ( t ) x_q(t) xq(t) f q ( x , t ) f_q(x,t) fq(x,t)取值如表 1 1 1所示:
x0123456789101120
f(20,x)0.0000.0000.0060.0510.1920.3400.2810.1080.0200.0020.0000.0000.000

三 验证

方法:事实上,抛开公式,也可以采用蒙特卡罗(Monte Carlo)随机模拟方法得到上述结果;

过程:随机生成 20 × 1000 20×1000 20×1000个由 0 0 0 1 1 1组成的矩阵,每一列代表一组 20 20 20次的独立重复试验,共 1000 1000 1000组;

结果:游程统计结果如表 2 2 2所示

length12345678910
times2776128362032415156261962
frequency2.7761.2830.6200.3240.1510.0560.0260.0190.0060.002
simulated value0.5270.2440.1180.0620.0290.0110.0050.0040.0010.000
Theoretical value0.5240.2500.1190.0570.0270.0130.0060.0030.0010.001
NVduWV.png
  1. 1 1 1行:游程长度
  2. 2 2 2行:1000组试验每个长度的游程出现的次数
  3. 3 3 3行:1组试验中每个游程平均出现的次数
  4. 4 、 5 4、5 45行:对于一个游程,其长度为 x x x的概率,即游程长度的概率密度 f L ( n , x ) f_L(n,x) fL(n,x)
  5. f L ( n , x ) f_L(n,x) fL(n,x)的模拟值和理论值对比如图6所示, 1000 1000 1000组试验共产生游程 x ≥ 4 x\geq4 x4 的个数586个
  6. 进而可以得到,每洗好的20张牌,出现“4连张”以上的概率为 ∑ x = 4 11 p ( X = x ) = 0.586 \sum\limits _{x=4}^{11}p(X=x)=0.586 x=411p(X=x)=0.586

随机分布不意味着均匀分布,总会出现一段时间内运气普遍比较好,而这反而会让人产生"运气不是随机分布"的错觉。


朱常坤

南京,2020年6月21日

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值