浅谈正态分布相关

在这里插入图片描述

正态分布(Normal distribution)
有人会认为我们的世界在很多领域经常发生极端事件,在一些领域中也许存在这样特别极端的例子,但是,其实很大一部分领域,极端现象都非常少,就像世界上没有身高15米的人一样,因为我们的世界大部分事物服从正态分布。

  1. 正态分布的三个数学特性

“正态分布”这个词,也称“常态分布”,又名高斯分布听上去挺复杂,但它的英文叫normal distribution,直接翻译过来就是“正常的分布”,意思是其它分布都是特殊的,只有正态分布是一般的、正常的。高斯在研究测量误差时从另一个角度发现了它,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
在这里插入图片描述

说起正态分布曲线,就是一条对称的倒钟形曲线,中间很高,两边下降,像个鼓起的小山。图片就长这样:
在这里插入图片描述

在正态分布的曲线图里,横坐标代表随机变量的取值范围,越往右,随机变量的值就越大。纵坐标,则代表概率的大小,最底下的概率是0,越往上概率越大。因为这条曲线是左右对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多,而两边陡峭下降,就意味着越靠近平均值,数据越多,越远离平均值,数据就越少。正态分布能给人充分的掌控感,每个案例相差都不会很大,通常翻不了天。

平均值和标准差就都可以用平时的流量数据统计出来。有了平均值和标准差你就可以大致估算各种事件发生的概率:95%的事情都发生在两个标准差之内,99.7% 的事情发生在三个标准差之内。假设说要找个美貌程度在两个标准差之外的女朋友,那就意味着她要比 97.5%的人都漂亮。就像这个图:
在这里插入图片描述

2.从上面的例子我们可以知道正态分布的三个特性:

一是均值就是期望。也就是正态分布曲线中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于它的数学期望,平均值也就代表随机事件的价值。

二是极端值很少。这有两层含义:一是极端值出现的概率很低,二是极端值对均值的影响很小。也因此,正态分布是稳定的系统。

性质三:标准差决定胖瘦。前面讲过,标准差就是方差的平方根,也能用来描述随机变量的波动情况。在正态分布中,标准差越大,数据的波动越剧烈,钟形曲线就越矮胖,标准差越小,数据越集中,钟形曲线就越高瘦。
在这里插入图片描述

换句话说,正态分布是必然产生的。而这个证明源于严格的数学推导,是一定正确的。

3.正态分布是所有分布的参照系和世界的宿命

正态分布就像一个标准、一个参照系,服从正态分布,可以直接用它分析,不服从正态分布,也可以为人类指明继续探索的方向。如果一个这个随机事件不服从正态分布,那它就一定不满足正态分布背后的中心极限定理。而不满足中心极限定理,我们就能知道,要么是它的影响因素不够多,要么是各种影响因素不相互独立,要么是某种影响因素的影响力太大等,就给我们继续探索指出了思路。

中心极限定理告诉我们,正态分布普遍存在。比如,影响人身高的因素很多,营养、遗传、环境、种族、性别等都有影响,这些因素的综合效果就是人的身高服从正态分布。

所有的分布,不是正态分布,就是在变成正态分布的路上。信息论领域发现了“最大熵原理”,熵(拼音:shāng)。就是说,在一个孤立系统中,熵总是在不断增大。正态分布就是所有已知均值和方差的分布中,信息熵最大的一种分布。
在这里插入图片描述

如果熵不断增长是孤立系统确定的演化方向,那熵的最大化,所以就是孤立系统演化的必然结果。最终任何分布叠加最终都会形成正态分布,所以无论是对数分布还是幂律分布,无论是指数分布还是其他任何分布,只要自身不断演化,不断自己叠加自己,最终也一样会变成正态分布,好像冥冥中自有定数。
神说,要有正态分布,就有了正态分布。

神看正态分布是好的,就让随机误差服从了正态分布。
补充:
而和它相对立的情况就是幂律分布。
正态分布构建的世界非常稳定,只需要考虑常规、考虑大多数就可以。但是幂律分布仿佛有一种神奇的魔力,让不可能发生的事情变得可能
在这里插入图片描述
我们先来看一组常见却又特别奇怪的现象——

在抖音和b站上,有的视频能够吸引几百万个点击量,但其他绝大多数短视频却无人问津。这是为什么?

在微博上,大V拥有几千万的粉丝,但是普通人的关注度却寥寥无几。这又是为什么?

还有,在中文里,我们经常使用的汉字也就两三千个,但实际上,中文汉字的总量是9万多个,换句话说,字典里的绝大多数字,你都不会用到。这又是为什么?

全社会80%的财富集中在20%的人手里,一个行业80%的市场被20%的头部公司占据,一家公司80%的生意来自20%的重点客户……

对,没错,这些现象就是我们熟知的二八定律,即20%的人口掌握了80%的社会财富。

二八定律其实就是幂律分布最直观的表现,它们的背后其实都是幂律分布。

这些现象都有一个共同的特征,就是它的数据波动非常地大,少数点的数值特别高,大多数的点数值都很低,最大和最小的点之间,可能相差好几个数量级。统计学上,把这种情况叫做“幂律分布”。
与正态分布的区别
区别一:平均值失去意义

我们之前说过,正态分布是一种均匀对称分布,大多数数据都集中在平均值附近,所以平均值非常有用,因为它代表大多数。

但幂律分布呢?其数据变化幅度非常大,平均值毫无意义。比如说个人收入,有一贫如洗的穷人,也有家财万贯的富豪,富豪的财富和普通人完全不是一个数量级,把这两群人的资产平均,没有任何意义。

区别二:大事件发生的可能性大大增加

在这里插入图片描述

长尾效应
图中幂律分布的“长尾”意味着:虽然极端数据出现的概率很低,但这个概率永远不会趋近于0,永远不会小到可以忽略不计。

这也和正态分布不同。在正态分布里,数据非常集中,非常极端的数据几乎不可能出现,可以直接忽略不不计。而在幂律分布中,再极端的数据都有出现的可能。举个例子:就像超大规模的自然灾害,虽然发生概率极低,但我们知道它一定会发生。

所谓正态分布,就是差的有,但很少;好的也有,但也不多;大部分都在中间
理解了数学里的指数和幂之后,你才会明白,“打打杀杀”都是小事;选择在哪里“打打杀杀”,才是大事

科技公司华为2021年的年营收是6300多亿元,但是你猜华为有多少员工?13.1万人(截至2021年12月31日)。科技公司用约13万名员工做到6300多亿元收入,而餐饮业要做到同样的收入,需要400多万名员工。到目前为止,地球上还没有一家公司能管理400万名员工。目前员工数量最多的公司是沃尔玛,大约230万人。
在这里插入图片描述
所以想要逆风翻盘,就做时间的朋友,等待奇点到来!

那么什么是奇点呢?
打个比方来说你和公司签对赌协议,3年达到一个什么样的成果,就会给你巨大的回报。那么三年就是这个奇点,前提是能熬过这个奇点,中途如果饿死了撑不到奇点那就失败了,能熬过这个奇点,可能后来带来的财富是一飞冲天的

巴菲特说:“我一生中99%以上的财富,都是在50岁以后获得的。”巴菲特从11岁开始投资,直到50岁才迎来了他的奇点。有一次,有人问巴菲特:“你的投资体系这么简单,为什么别人不做和你一样的事情?”巴菲特回答:“因为没有人愿意慢慢变富。”

所以,获得指数增长的关键是耐心。要坚持做正确的事情,做时间的朋友。

所谓的“大器晚成”。因为奇点来得很晚,可一旦来到,就势不可当。所以站在幂律分布食物链的顶端,做点轰轰烈烈的事。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值