正态分布
正态(高斯)分布是最常见也是工程世界最常用的概率分布。也许你记不清它的公式,但我相信,没有学过概率论的人也在新闻里面见过它那个钟罩形状的分布图。我们的生活中很多元素都符合概率分布,比如我们的身高体重,电灯泡和汽车的寿命,上班堵车的时间,等等。计算机科学的各个科研和工程领域都可以看见高斯分布的用例。
通过均值 μ \mu μ 和标准差 σ \sigma σ 就可以确立一个正态分布。当一个变量 x x x 的值受到多个因素影响,并且这些因素之间彼此不相关联的时候,这个变量的取值就会呈现出正态分布。比如一个人的足球水平,受到运动天赋,身体状况,营养供给状况,对于足球运动的热爱,居住地基础设施,人际关系,专业训练机会,大众文化认可,志同道合的好友支持,自身学业发展规划,所在国家或者城市经济发展,等等很多因素影响。虽然这些因素很难量化,但它们彼此没有关联或者关联很小到忽略不计,于是世界上所有人的足球水平排开,应该会接近正态分布。
但是要注意,国家足球队员的水平一定远远高于普通人,所以他们应该分布在“钟罩”的尾部,也就是上图深色阴影标注的位置。
男足:中国 v.s. 冰岛
根据百科资料,冰岛总人口364134。它们的男足国家队进入了2018年世界杯的决赛圈,能够从欧洲预选赛里面脱颖而出,足可见其实力。这时候就会有人感叹,为什么中国14亿人,却无法找出具备实力的25人国足名单。是啊,如果两国人口的足球水平都是正态分布,那中国人口是冰岛的大约3844倍,即便考虑到中国足球水平的均值不如冰岛,那找到25人组建一个跟冰岛队i实力相当的球队,应是很容易啊。而事实是反直觉的,正态分布在两侧(尾部)下降的太快了,那个均值的细微差异会在尾部带来巨大变化。
这里用一个简单的模型来说明。冰岛的25人足球队,占全国总人口的 25 / 364134 ~= 6.8656e-05,按照这个比例中国应该能找出水平相当的足球运动员 1,400,000,000 * 6.8656e-05 ~= 96118.46人,这足够组成4000只跟冰岛队实力相当的足球队了。可是,以上计算假设均值相等,也就是假设中国拥有跟冰岛差不多的足球环境,普及度,比赛机会,人均场馆数量,青训建设,足球理念等等因素。但是毕竟我们的人口基数是冰岛的3844倍,均值差一点就那么严重吗。而事实是,真的很严重。现在我们再来重新考虑 “中国足球水平的均值不如冰岛” 这个因素,冰岛的25人国家队所占总人口的比例 6.8656 e − 05 6.8656e-05 6.8656e−05,在正态分布 ( μ = 0 , σ = 1 ) (\mu = 0, \sigma = 1) (μ=0,σ=1)的横轴对应位置是3.813。这可以理解为在冰岛,只有实力大于3.813的人才可能入选国家队。现在假设中国足球的均值比起冰岛足球差一个标准差,如下图,就是把蓝色的中国的“钟罩”向沿着x轴向左平移一个标准差1, 那就意味着在中国,跟冰岛队员实力相当的人变得更少,在中国实力大于 3.813 + 1 = 4.813 3.813 + 1 = 4.813 3.813+1=4.813的人才会满足冰岛足球队的水准。那么实力大于4.813的人占总人口的比例是多少呢,直觉会认为最多减半吧,但正确答案是7.4355e-07,这几乎是之前的 1 % 1\% 1%。也就是说,在中国只能够找出1000人有实力与冰岛足球队抗衡,即使我们的人口基数是他们的3844倍。再进一步,如果中国足球水平均值比起冰岛差2个标准差,使得只有实力大于 3.813 + 2 = 5.813 3.813 + 2 = 5.813 3.813+2=5.813才能与冰岛一战,那全中国也只能找出5个人,这下连一支队伍都无法配齐。
中国足球距离冰岛足球有几个标准差呢,这个很难衡量。但是体育新闻里面经常会提到一个概念,就是各国足协记录在案的足球注册人口,也就是还能经常参与正规比赛(哪怕是小学足球联赛)的运动员教练员训练员等。所以,这个单一指标可以用来粗略估算各国足球发展水平。现在我们已知日本足球注册人口是500000,占总人口0.00396,而法国足球注册人口是1460000,占总人口0.0218。现在我们假设日本的足球注册人口和法国足球注册人口的足球水平完全一致,也就是说,在他们各自的
σ
=
1
\sigma=1
σ=1的正态分布里面注册足球人口完全重合(跟上图类似)。那么,日本需要拿出实力大于2.656的人才可以比肩法国实力大于2.018的人,也就是说他们之间的均值相差是0.638。这是亚洲第一和世界杯冠军的差距,而事实上,足球作为一个竞技商业运动,强队之间是有充分的交流学习的,我认为日本和法国之间的差距,是小于中国和任何一支常年进世界杯的球队之间的差距的。所以,由于均值的细微差异,和竞技项目对于尖端人才的依赖,以及高斯分布那个迅速下滑的尾巴,14亿人凑不齐25人的男足国家队也就不奇怪了。
类似的例子还有很多,比如经常有人问,为什么硅谷里面印度裔高管的数量远多于华裔呢?文化隔阂吗,印度人更抱团吗,美国对华人的提防吗?其实只要去查查印度和中国从事软件业的人数,两国软件业的发展历史,硅谷以及整个北美印度和中国软件工程师的数量,再去想想高斯分布那个急速下滑的尾巴,你或许会有不一样的答案。