概率世界：随机变量及其概率分布

《目录》

概念

随机变量
数学期望
方差
标准差

概率分布

正态分布
幂律分布
泊松分布
预测变量
假设检验

黄金定律

中心极限定理
大数定律
贝叶斯定理

我想拿一张白纸，把这些内容都写下来。不过，这一张纸不是数学公式，我想给你一个直观的解释，以及知识点之间的逻辑链条。

概念

随机变量、数学期望、方差、标准差。

随机变量

通俗地讲，随机变量就是一个随机的数，它是对任何的“随机的东西”做的量化。

随机的对象可以是任何东西--明天的天气可以是晴、阴、雨，扔硬币的结果可以是正面或者反面，这里本身都没有数字。但是我们要借助概率论来研究它们，而概率论是数学的一部分，要用到数学语言，那么总是写“明天是晴天的概率”就很不方便，于是我们可以把晴、阴、雨贴上标签，叫做0、1、2，而后把明天的天气状况用一个字母X来表示，于是“明天下雨”就变成了“X=2”。

这样，这个原本没有数字的随机结果就变成了一个可能的取值为0、1、2的随机数，这就是随机变量。

数学期望

对长期价值的数字化衡量，或者说，每当要判断一件事的长期价值，数学期望就是一个指标。

在NBA这个世界最顶级的篮球联赛中，不少球队是照魔球理论建队的。比如说，火箭队的莫雷，在库里，已经开始了魔球计划。

魔球理论：打篮球🏀有三种得分方式。

篮下、中距离、三分球，假设你投中的概率分别是 55%、45%、35%。

那从长期来看，哪种进攻方式比较好？

篮下：2 x 55% + 0 x 45% = 1.1分；
中距离：2 x 45% + 0 x 55% = 0.9分；
三分球：3 x 35% + 0 x 65% = 1.05分。

篮下进攻和三分球的数学期望比中距离都要高，所以尽可能多进攻篮下和投三分球，少投中距离，长期来看就是更有效率的选择。

执行这个方案：

step-1：研究规则制定最佳策略

通常情况下，最佳当然是蓝下进攻，但随着外线体毛级规则的改变、特定底角、45度腰部三分战术的成熟、全体成员三分球命中率的提升等等，这些提高了三分战术的数学期望，所以最佳策略是三分球。

step-2：用大数据和人工智能制定战术，训练时让大家习惯机器制定的最优战术。

这样培养出来的人，就有三分球史诗级命中率的库里。

但三分战术也不是万能的，它的数学期望还没有到碾压中距离，同时三分战术的兴起，也会改变外线防守强度，忽视中距离的方式，导致中距离命中率会提高，数学期望又会发生变化。

所以对个体来说，不同的球员，更“合理”的战术是根据自己的命中率。比如，林书豪……中距离投的就很欢，因为对他来说，篮下得分的数学期望不断下降（身体素质下降、联防规则、无禁区三秒），而中距离都快成他的主要阵地战得分手段了。

游戏平衡：像王者荣耀一样的MOBA游戏，经常会出新英雄，这些新英雄刚出现的时候往往比较变态。

为了保证游戏的公平性和可玩性，游戏开发者就得平衡英雄。过程大概是这样，会不断的调整新英雄的属性（攻击、暴击、血条），其实就是在调整新英雄的数学期望，争取长期平衡。

在金融里，金融产品是否值得长期投资，也可以用数学期望来衡量。

假如你只有10万元，想投资某项目，估计成功概率为30%，可以盈利8万元；失败机会为70%，届时会亏损2万元。还可以选择存入银行，获取5%的固定收益。

问，是应该投资，还是存入银行？

我们笔算一下，投资回报率是10%，存银行的回报率是5%，所以我们应该选投资是吧。

其实应该存银行，因为这算出来的是平均收益，对于一次投资而言存在亏损的风险。因为我们只有这10万块钱，这10万元我输不起，这个生意恐怕就不能做。可以选择稳妥的银行固定收益。

也就是说，算出期望不是说一定可以赚钱，但只要输得起，长期坚持投资不同的、期望为正的项目，大概率是会不断盈利的。

方差

方差，反映的是随机结果围绕数学期望的波动范围。

学会了计算期望，就能清楚的衡量一件事的价值、指导我们决策了吗？

答案是，不能。

比如，过河。

假如您的身高是 1米8，河水平均深度 1米3（已知期望），那我们是不是就可以直接走过去了呢？

看起来是安全的，但是下去遇到水中的深坑就淹死了。

所以我们还需要知道河水的深度范围，比如说1米3±0.2米，那么就是安全的，最深就是1米5，最浅是1米1。

当我们知道河的平均深度（均值/数学期望）后，再知道深度范围（方差）才能做出是否过河的决策。

标准差

标准差与方差是完全相关的，因为标准差就是方差的√平方根。

概率分布

概率分布代表了一个事件的变化规律。

现实世界里，影响一个事件的各种因素，不可能完全是理想状态下的相互独立，而是相互交缠、互相影响的，所以一切都还在演化的路上，所以我们身边存在各种各样的其他分布。

常见的有几十种，像正态分布、幂律分布、泊松分布、指数分布、对数分布都是其中的一种。不过这个数字肯定会越来越大，因为数学家还在针对不同的现象、不同的变化特征，发现和发明新的模型。

正态分布

可以看一下您的电脑开机时间，比如我电脑显示的是：电脑开机时间 8 秒，打败全国 99% 的用户。

打败全国 99% 的用户，表达的很直观，但这个排名并不是通过收集所有数据进行排序得出来的排名，而是通过随机抽取一部分用户的开机数据，算出均值和标准差，构建一个正态分布模型。只要比较开机时间和均值的差距，就知道距离均值有多少个标准差，这也就知道了你的排名。

比如，一组电脑的开机时间数据：{ 5, 6, 8, 9 } 。

step-1：计算均值（期望）

(5+6+8+9) / 4 = 7，均值是 7。

step-2：计算标准差

√0.25*{（5-7）*（5-7）+（6-7）*（6-7）+（8-7）*（8-7）+（9-7）*（9-7）} = √10/√4 = 1.58，标准差是1.58。

在正态分布中，1个标准差是 68.2%，2个标准差是 95.4%，3个标准差是 99.7%，6个标准差是 99.99966%。

而我们得到的 1.58 是在 1个标准差外，也就是说，电脑开机时间至少打败了全国 68.2% 的用户。

英语的四六级峰值是500分，425是样本学校排名85%的分数，这个逻辑也是一样，就是用正态分布构建标准分数... ...

在现实生活中，很多事情都是多个随机因素共同作用的结果。比如，影响考试成绩的因素也很多，自身的能力、家庭教育、智商、专注力，甚至考前的情绪、身体状况等也都有影响，但当这些因素加在一起，考试成绩就服从正态分布。

只要是多个随机因素共同作用下（相加），无论是对数分布还是幂律分布，无论是指数分布还是其他任何分布，只要自身不断演化，不断自己叠加自己，最终也一样会变成正态分布……所有的分布，不是正态分布，就是在变成正态分布的路上。

幂律分布

为什么我们会用高考的平均成绩，衡量一所高中的教学质量？为什么我们会用平均收益率，衡量一家基金公司的好坏？因为高考成绩和基金公司的收益，是服从正态分布的。

正态分布是一种均匀对称分布，大多数数据都集中在平均值附近，所以平均值非常有用，因为它代表大多数。

而幂律分布呢？它的数据变化幅度非常大，平均值毫无意义。

2010年全球最有钱的388人的财富总量，相当于世界一半人口35亿贫困人口的财富总量。到2014年这388人变成了85人，到2017年这85人变成了8个人。

80%的财富集中在20%的人手里，这种一头全有，一头全无的情况，平均值毫无意义。

目前，科学家们一直致力于幂律分布的研究。比如著名的“沙堆模型”，在平台上不断添加沙粒，慢慢形成一个沙堆。随着沙堆高度的增加，新添加的沙粒会带动沙堆表面其他沙粒滚落，产生所谓的“沙崩”。

统计沙崩的规模和发生的频率，科学家发现它服从幂律分布。所有物理知识我们都掌握，而且能用计算机跟踪每一粒沙子的位置，但仍然找不到沙堆崩塌的原因（幂律分布产生的原因）。

我们既不知道在什么条件下，再放一粒沙子就会导致沙崩，也无法预测这粒沙子导致的沙崩规模会有多大。所以到目前，我们对于幂律分布（各种自然灾害），基本还是束手无策。

无法预测幂律分布，意味着我们只知道大灾难影响很大，而且一定会来，却不知道下一场大地震、下一场森林大火、下一场战争、下一次金融危机会什么时候发生，以及会带来多大的损失。

以上这些都是概率分布的作用：体现现实世界的规律，甚至我们可以使用分布来预测某个随机变量，除此之外，它还可以拿来检验假说。就是当有人提出一个假说的时候，我们最终可以通过概率分布，来检验他这个假说到底靠谱不靠谱。

泊松分布

假如你是包子店老板，生意兴隆，但令你发愁的地方是，应该准备多少个馒头才能既不太浪费又可以多买一些呢？

首先人具有多样性，每个人都是不一样的，有自己的想法、判断和追求。这给对人的研究造成极大的困难，使得社会科学几乎不可能是一门精确的科学。

不过别担心。您的确很难预测 一个人 的行为，但是您可以在大体上判断 一群人 的行为。

这是为啥呢？？

因为个体的差异可以互相抵消。比如您开个餐馆，具体到一个特定的人今天来不来您这吃饭，您很难判断 —— 但是您每天的顾客人数其实都差不多。有的人本来想来因为临时有事来不了，有的人本来没想来因为路过看到就来了，这种种的出入互相抵消了。

如果您的包子店事业已经比较稳定了，您不会太担心顾客流量的波动。这种情况，就是正态分布。

只要您知道顾客人数符合正态分布，平均值和标准差就都可以用平时的流量数据统计出来，有了平均值和标准差您就可以大致估算各种事件发生的概率。

比如，老板您统计了一周每日卖出的馒头：

包子店	周一	周二	周三	周四	周五
卖出	3	7	4	6	5

均值： $\frac{3+7+4+6+5}{5}=5$

如果按照均值准备馒头，从统计来看，只能满足 60% 的天数够卖。

60% 还是不够，我们想知道每天供应 5 个以上的概率怎么算呢？

我们不求整体发生率，而是求发生次数的概率，也知道这个事件发生的概率符合正态分布。

那在某一段时间内，这个随机事件发生的次数的概率分布是什么呢？比如，每天供应 6个、7个、8个、9个的概率。

求发生次数的概率，泊松分布就是专门解决这类问题的。

泊松分布： $P(X=k)=\frac{\lambda ^{k}}{k!}e^{-\lambda }$
e：数学常量
$\lambda$ ：单位时间内事件平均发生次数
k：事件发生次数

计算一下k，从 0 算到 16，其中 5 是均值：

k	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
单次概率	0.0067	0.0337	0.0842	0.1404	0.1755	0.1755	0.1462	0.1044	0.0653	0.0363	0.0181	0.0082	0.0034	0.0013	0.0005	0.0002	0
累积概率	0.0067	0.0404	0.1247	0.265	0.4405	0.616	0.7622	0.8666	0.9319	0.9682	0.9863	0.9945	0.998	0.9993	0.9998	0.9999	1

从这个表格中你可以看出：

概率是随着 k 的增加而逐渐增加的。多卖 1 个，那么可以供应的概率也相应增大。
但是在 k=4 和5这两个点，概率达到峰值，如果 k 再增加，超过 𝞴 时，概率其实要往下走。这种现象对任何 𝞴 都是成立的。

如果每天卖 5 个，那有 40% 的时间没有供应

如果每天卖 6 个，那有 25% 的时间没有供应

如果每天卖 7 个，那有 14% 的时间没有供应

如果每天卖 8 个，那有 7% 的时间没有供应

... ...

如果是理想情况，应该是保证每天的包子都是充足的，但这样一定会造成很大的浪费（可能一半不止），所以，我觉得 80%-90% 的时间供应就很合理，所以应该选每天供应 8 个（93%的时间都有，但浪费又不会太多）。

包子店的备货，就是保险的数学原理。

一般来讲，我们出事的概率并不高，但是一旦出事可能损失很大，因此每一个人放一点钱到池子中，谁不幸出了事情，就由保险公司理赔，但是每个人放多少钱在保险公司的池子里，就有讲究了。

比如每一次理赔的金额是10000元，每年出事的概率是10%，有200人投保。从理论上讲，平均每个人收理赔金额的10%，也就是1000元即可，这样一年可以赔偿20人（次）。

但是我们知道，由于出事是随机的，总是存在超过20个人出事的可能性。如果这一年你非常不幸，等你申请赔偿时，前面已经赔过了20人，你就得不到赔偿了。事实上如果按照上述方式设计保险产品，你即使投保了，能够获得赔偿的可能性只有一半左右。如果保险公司这么办，恐怕就没有人有投保的意愿了。

那么怎么办呢？我们前面讲了，就是每个人多交点保费，比如每个人交1500元，这样你获得赔偿的可能性就增加到98%了。但是这样一来很多人就会觉得不合算，因为他们觉得自己多交了50%，于是就选择不买保险。

为了解决这个问题，保险公司就必须把池子搞得更大。比如我们把投保的人数增加到2000人，这样只要稍微多交15%的钱，即1150元，就能保证98%的情况获得赔偿。当池子特别大时，每个人只要比1000元多交一点点就可以了。这样，大家就有投保的意愿。

从这个例子我们可以看出，在管理水平和效率相当的情况下，保险这个行业是池子越大风险越小。因此，对于个人来讲，应该优先考虑找那些大保险公司投保。很多人觉得小公司服务好，而且承诺同样的赔偿，于是使用小保险公司，但事实上真的遇到需要索赔时，很多小保险公司是赔不出来的。

此外，根据我们前面计算的结果，即使大保险公司也有很小的可能性赔不出来，那么怎么办呢？显然不可能把池子做到无限大。于是在保险行业，就出现了再保险或者保险公司之间互相保险的情况。

这其实就是许多保险公司们联合，把几个已经很大的池子，合并成一个超级规模的池子。这样，除非遇到2008年金融危机这样的情况，否则不会出现支付不起赔偿金的情况。

泊松分布是正态分布的一种微观视角，我们把每天供应1-16个包子在坐标系里连起来，那泊松分布曲线就会越来越像正态分布曲线。

# Python作图：泊松分布
import numpy as np
import matplotlib.pyplot as plt

for i in range(1, 16):
    x = np.random.poisson(lam=5, size=10000)  
    # lam为𝞴
    pillar = 16
    # 计算到16

    a = plt.hist(x, bins=i, normed=True, range=[0, i], color='g', alpha=0.5)
    plt.plot(a[1][0:i], a[0], 'r')
    plt.grid()
    plt.show()

运行结果：

泊松分布的数学性质：

泊松分布是正态分布的微观视角。比如，k = 1、k = 5、k = 16，都看不出什么，但如果把它们从头到尾连起来，泊松分布曲线就近似正态分布曲线了。
泊松分布的间隔是无记忆的，就是之前的情况对之后的情况没有影响，相互独立。比如，今天包子店人多包子卖完了，明天就该根据今天的情况增加或者减少。

在泊松分布之前，概率和统计是两个不同的学科：

概率研究未发生的随机事件
统计描述已发生的现实

换句话说，那会儿只有描述统计，没有推断统计。而泊松分布开启了推断统计的大门，第一次把概率和统计连接在一起。

统计推断，是啥，能否举个例子？

物理学家要研究放射性物质的半衰期是吧，可是，绝大多数物质衰变期极长，长到没法直接测量。

比如铋209原子的半衰期是1.9x10的19次方年，如果你盯着一个铋原子，想看到它衰变，可能看到宇宙毁灭都够呛。这时候数据太少了，连一个完整的衰变周期都观测不到。怎么办呢？

物理学家先假设衰变是服从正态分布。但是，连一个完整的衰变周期都看不全，怎么去验证这个假设呢？

用泊松分布解决。

找一堆铋209原子，统计一下在几个确定的时间间隔中，这堆原子有多少个发生了衰变。只要这个数字服从泊松分布，反过来就证明铋209原子的衰变服从正态分布，就可以用正态分布直接计算。

利用同样的原理，科学家们成功完成了像DNA的突变次数、外太空某个区域内恒星的数量等一系列科学问题的计算，推动了物理学、生物学、天文学等科学领域的发展。

在这些问题的解决中，统计数据和概率论的概率分布就被连在了一起，这个就是统计推断。

预测变量

使用分布预测某个随机变量：

先分析特征，看看这件事有木有我们已有的分布模型身上的特征。比如正态分布的稳定性、幂律分布的无标度、指数分布的无记忆。
使用数据，看这个分布是否符合现实数据的情况。

假设检验

先说一下，什么是假设检验？怎么来的。

在英国剑桥一个夏日的午后，一群绅士和淑女在一起享用着下午茶。

当侍者上前倒茶的时候，有位女士站出来，阻止了侍者先加茶、后加牛奶的做法（让我们简称这种做法为“茶奶”），要求先加牛奶、再加茶（简称为“奶茶”），因为这样口感会大不相同。

在场的绅士懵了，把茶加到奶里和把奶加进茶里，这还有什么区别么？两种液体的化学分子没有区别吧？不过，女士坚持她可以分辨出。

于是，大家提出做实验，看一下这位女士是否真的可以区分奶茶和茶奶的区别。

在大家的安排下，侍者分别倒了5杯奶茶和5杯茶奶，打乱顺序后给女士品尝，其中8杯说对了，2杯没说对。

此时，绅士们做了一个无效假设，假设这位女士品尝不出差别。

我们算一下概率，说对1杯的概率是 50%，说对 8 杯的概率是 0.5^8 = 0.003906。

这个概率太小了，所以我们要抛弃初始的假设，接受与它相反的结论。

这就像一个学生，考试考了99.96分，你能说TA的答案全是瞎写的吗？显然不能。同样的，我们当然也没有理由再去质疑女士，而只能接受相反的结论，认为“她确实能分辨出差别”。

这就是假设检验，分成俩部分：

假设：先做一个假设（通常是无效假设）。
检验：看它会导致什么结果，如果是一个发生概率非常低、非常不合理（临界值），那这个假设就不成立，我们开始相信与之相反的结论。如果这个假设没有导致不合理的结果，就不能推翻假设。

通常这个很小的概率 P是 0.05，如果概率小于 0.05，就说明这个假设不成立，要认同相反的结论。

比如，去医院检查身体，医生会先假设这个人没病，然后通过一系列检查，看看能不能找到患病的症状。像新冠肺炎，只要核酸检测是阳性，这个人没被感染的概率就很低，基本上就确诊了。这时候，医生只能放弃“这个人没有病”的假设，转而认为“这人患病了，赶紧想办法治疗”。如果核酸检测是阴性呢？那这个人没有被感染的概率很大，就不能推翻原来的假设。

假设检验一诞生就席卷了各个领域，几乎成为现代医学、心理学、经济学、社会学，乃至计算机科学等学科研究的底层方法之一。

概率分布是假设检验的基础，以概率分布为基础，得到靠谱、有价值的结论，正是概率分布的意义所在。

比如，你在中学遇到一个同学，身高一米七，请问这位同志在菲律宾是高个还是矮个呢？这时候，当然可以用假设检验来推理，但请问P值是多少？

P值默认是0.05呀，其实不是，虽然默认是0.05，但P值的设置一定要和问题联动，依领域而定。

所以这时候我们压根没法计算。总不能因为一个人的身高问题，把中学所有同学的身高都统计一遍吧？那怎么办呢？

答案是，用概率分布。

找出这所中学学生身高的分布图。图里横坐标代表身高，纵坐标就代表概率。

P值就是在假设下，当前现象以及更极端现象出现的概率。所以相应的，图中身高一米七及以上的人的概率，也就是P值，自然就代表这群人的比例。

如果一米七及以上的男人只有10%，那P值就是10%。这个人在身高前10%这个区间里，肯定就算高个了。如果分布变了，一米七及以上的男人占30%呢？这时候P值就变成了30%。还有30%左右的人比这个人高，他就不算高个了吧？

对于很多复杂的随机事件，需要把随机事件的概率分布图拿出来，确定P值的大小。只有这样，才能判断假设能不能被推翻。或者说，假设检验是基于概率的反证法，而要用概率的反证法，就要用到概率分布。

黄金定律

中心极限定理、大数定律，是概率论俩大黄金定律。

中心极限定理

在泊松分布的时候，写到像包子店、餐馆人数是满足正态分布的，这个是怎么判断的呢？

的确，并不是所有随机事件都满足正态分布。想要学会判断什么样的事件满足正态分布，您必须有一点数学感，您需要了解“中心极限定理”。

中心极限定理是因，正态分布是果，中心极限定理证明了正态分布的合理性。

中心极限定理说，如果一个事件满足下面这些条件，TA的分布就是正态分布 ——

第一，由多个 —— 至少 20 个 —— 随机变量 *相加* 的结果；比如，人的身高至少由 180 个基因共同决定。
第二，这众多的随机变量是互相 “独立” 的；比如，180 个基因功能各不相同，有的决定你的小腿多长，有的决定你的脖子多长，各个基因比较相互独立。
第三，每个随机变量的方差都只有有限大；
第四，每个随机变量对结果都要有一定的贡献，否则如果只是其中几个起到决定性的作用，那也不能算“多”。

简单地说，关键要求有两个：

“相加”和“独立” —— 凡是多个独立随机变量相加的事件，结果就会是正态分布。

您的包子店顾客满足这些条件：

每个顾客来不来吃饭都是他自己的决定，是独立的；
而您计算的是今天总共来了多少人，是这些人的和。

直观地说，中心极限定理说的是每个人来不来可能波动很大，但是因为人多，整体上来多少人，波动就不会有那么大，所以满足正态分布。

那如果局面不满足这两个条件（相加和不独立，变量之间相互模仿或者紧密结合），结果会是怎样的呢？？

那您就得做好准备迎接极端事件了。

比如，如果把“相加”换成“相乘”。

“相乘”和“独立” —— 凡是多个独立随机变量相乘的事件，结果就会是对数分布。

对数分布中出现极端事件的概率比正态分布要大得多，比如员工的工资增长：

正态分布：每年评选一次，业绩突出的员工，工资增加 1000 元。
对数分布：每年评选一次，业绩突出的员工，工资增加 10%。

不同职位有不同工资，那管理层、尖顶的技术岗位本来就比普通岗位的工资高，相乘的话，差距会更大，总体来看，对数分布的工资体系下员工收入差距会超过正态分布的工资体系下员工收入。

再比如，如果把“相加”换成“相乘”，把“独立”换成“相关”。

对数正态分布仍然假设每个随机变量的作用是互相独立的 —— 这意味着哪个员工今年能做出更好的业绩，跟他去年的工资没关系。

“相乘”和“相关” —— 凡是多个相关随机变量相乘的事件，结果就会是幂律分布。

增加 10%，一次可能没什么，但如果一些员工业绩一直突出（强者恒强），那TA的工资和普通同事的差距就会越来越大... ...更容易出现极端情况。

大数定律

1939年，南非数学家克里奇冒失地跑到欧洲，结果被关进集中营。

百无聊赖的时候，他给自己找到了一个有趣的乐子：一枚硬币抛了1万次，记录了正面朝上的数量。

统计结果：

图中的折线，一开始结果偏离 50% 特别远，很多次都是正面。

随着抛硬币的次数越来越多，正面朝上的概率明显地向 50% 靠近。

其实，计算机模拟的结果也是这样：

抛 10 枚硬币，正面朝上的比例范围是 30%~90%；
抛 100 枚，比例范围就缩小了，变为了 40%~60%；
抛 1000 枚，比例范围就缩小到 46.2%~53.7%。

越来越接近 50%，那是不是有一种神秘力量，让结果不断逼近50%呢？

其实这靠的是，大数对小数的稀释作用。

大数定律不会对已经发生的情况进行平衡，而是利用新的数据去削弱TA的影响力，直到前面的数据从结果上看，影响力非常小，可以忽略不计。

如果我们人生中犯了一两个错误，也不要纠结，我们应该用更多正确的事，把这件事稀释掉。

当您真正理解了大数定律，就会运用和保持长期的眼光。

我们往往把人生的问题，归结为嫁错人，选错专业，进错公司。

改变这些选择，能改变我们的人生吗？就算有时光穿梭的机器，回到过去甩了男友、换掉老板，最后的命运可能还是一样。

这就像一个硬币即使连续 20 次出现正面，但是如果连续抛很多次的话，正面出现的概率还是 50%。

也就是说，硬币的命运，是由TA自身的结构所决定的。

当样本量足够大的时候，大数定律就开始发挥作用。

当我们讨论一生的命运时，我们的个人命运不取决于一两次选择，而取决于我们的系统、我们的人生概率。

我们的思考模式和行为方式，其实就是我们每个人的人生概率。

所以从系统层面上，把自己变成了一个中奖概率更高的骰子。尽管这种改变往往是不舒服的，但更是脱胎换骨的。

改变系统也不用您做对人生中的每一件事，做好每个选择，只需要您把人生系统的指针，向正确的方向拨一点。

但别小看这一点点偏差，就是这点偏差，会引领我们走向完全不一样的人生轨道。

境随心转，遇事顺不顺其实在心，所有看问题的角度都可以概括为对挨一耳光的反应：

扇回去：太强势与生活里的人、事都要斗一斗，结果谁都斗不过，失去了一切；
逃避：认怂，捂脸离开，莫过于一辈子都懦弱、胆小怕事，失去了自我；
冷静分析：卒然临之而不惊，无故加之而不怒，深信人是可以成长、改变的，心中有希望、有大事。

学习、做事、工作都会不断的遇到挨一耳光的事，或者说，如果你真的在学习、真的在做事、真的在工作，就一定会挨这一耳光的，但你所有的反应莫过于就这三种了。

要做到冷静分析是最不容易的，可能因为自恋、可能因为情面、可能因为视角、可能因为坏情绪... ...

如果下定决心想超越大佬，不完全是比大佬更努力，因为这只是低层面的竞争，而是首先在见识和格局上要比大佬高，气度要更大。

这份气度是什么？

其实人应该有一个系统（体系），而不是目标。

系统可以这样理解，你可以问自己：“我能够培养出哪些持久的技能或者人际关系”，而不是“我可以取得什么样的目标”。

前者具有强大的滚雪球效应，而后者要么“成功”要么“失败”。

以前我经常给自己定目标，任务框打勾的那一刻的确很爽，但有强烈目标对人的成功可能不仅没有好处，而且可能还有坏处：

人可能为了实现这个目标不惜一切代价，忽视危险（比如运动方面）；
人可能为了实现这个目标而犯规、作假，不择手段完成任务，最后完成目标本身成了意义；
因为目标导向的人往往比较重视某件事情，达不到自己就会很颓废；

不太喜欢，学习和改变仿佛是一场战争，学习和改变应该是一种习惯吧。

可人为什么还要给自己定目标，还要不断强化自己的目标呢？

心理学解释为，人之所以如此重视目标，是因为他们惧怕“不确定性”。

当生活有了明确目标的时候，你一切都可以按照这个目标展开，可以指定详细的计划，每时每刻都知道自己该干什么。

你可以忽略一切与这个目标无关的东西，外界再怎么动荡都与你无关。

这是一种什么体验呢？你的感觉会特别好，觉得生活特别充实，每天很有干劲。

取其精华去其糟粕，就形成了系统。

隆重登场的系统。

大家好，我叫系统。在我看来，成功者都有系统，失败者才用目标。

因为救赎从来不是一场机遇，不该奢求某次的机遇就改变命运，一定是通过有意识的选择和努力，为自己构建一个好的长期环境于是总能轻松发挥。

所以，你应该追求的是一个好的长期环境，而不是某一次的目标，你可以把这种环境称为系统。

系统的眼光，意指你每天都要做的事情 — 经常性的行为、连续变化的东西、一种生活方式。关注点在自己的系统，而不是“成功”这个目标。

比如减肥：

目标导向：这个月减 10 磅；
系统导向：正确的饮食方案。

比如创业：

目标导向：先立个小目标 100 万；
系统导向：连续创业的企业家；

为了这个系统，你可以做各种项目，你可以要求自己养成什么习惯，你要的不是某个具体事件的成败，而是【发展】这个系统。发展系统，不但需要你做“好玩”的事儿，还需要你做很多“不好玩”的事儿。真的，不是做每件事情都需要回报，也不是做每件事情都能得到即时的回报。

所以，为了培养这个系统，有几件事情是每天都要做的。

每周一练

1.清醒的开始和结束每一天

2.思想的精进

3.以错误为中心

4.分块，改进1%

5. 5个为什么

第一：清醒的开始和结束每一天

在清晨给自己积极的暗示，在晚上有一个经过思考后的结束。每一天都活得很清楚。

标准：每晚都心满意足地躺下，清晨都满怀期待地睁眼。

如果没有这个标准，那说明你还没真正思考起来呀。

第二：思想的精进

两千多年前，苏格拉底就认为：人的灵魂有三重本质，还为此画了一个图，一个骑手，驾驭着一辆由一黑一白两匹带着翅膀的马拉着的战车。

黑色的马代表欲望灵魂
白色的马代表意志灵魂
骑手，代表理性灵魂，他要驾驭着这两匹神驹勇往直前……

人年轻的时候，黑马最强、白马次之、骑手还是小孩子。这时候，我们的战车其实挺烂的，跑起来歪歪扭扭，弄不好总是在兜圈圈，马不听话，骑手呢？太小，啥都不太会…… 我们很难做成一件事情，往往事与愿违、或者半途而废，但无论是黑马、白马，都是我们自己，所以我们认为“最大的敌人是自己”、“一定要战胜自己”。

其实并不是这样，记住，你们是一家人，不仅不应该彼此对立，还应该互助互爱(⑉°з°)-♡。

情绪是理智的快捷方式
直觉是情绪的快捷方式

直觉（黑马）的反应比情绪（白马）更快一些，情绪的反应比理智（骑手）更快一些。

这就构成了大脑的两种模式：自动驾驶模式和主动控制模式，关键点是你能做到在两种模式之间自如切换。

白马和黑马是大脑的自动驾驶模式，骑手是大脑的主动驾驶模式。

自动驾驶模式的特点是很快，例如你驾驶汽车遇到突发事件时猛踩刹车，这是个自动处理的动作，包含了反射、本能、直觉、冲动。主动控制模式则显得有点儿慢，但它需要深思熟虑，你需要调用经验、记忆、分析、理性。比如说，一个人刚开始学开车的时候，特别紧张，每个动作都小心翼翼，到了路口东张西望，打个方向盘还要数圈儿，这个时候就是“主动控制模式”在发挥作用。等你成了老司机，一切驾轻就熟，开车回家几乎都不用动脑筋了，此时的思维是高度自动化的，人们甚至意识不到它们的存在。这个阶段，就是“自动驾驶模式”。你还可以一边开车，一边听听音乐，想点儿心事，看看沿途的风景。
新手到高手，就是从最开始交由“主动控制系统”来管理、训练，达到一定熟练程度，就由“自动驾驶系统”来接管。对于黑马白马，我们应该采取成年人对待小孩子的态度，耐心调教才对，而不是“哎呀，这小孩太烦人了，干脆收拾一顿！” 因为随着骑手的成长，骑手会把自己已经习得的本领直接建立一个“快捷方式”固化到白马身上，这样明显处理起来更快么！

比如：

1. 过去你觉得金钱最重要，经过学习和思考，你知道成长才最重要，后面你认为成长率更重要... ...你不再只是想着成长，而是更高要求的成长，你还会把自强的精神，安排到行程、吃、喝、睡里。
2. 过去你觉得要让自己变成功在于完成目标，经过成长的历程，你已经明白系统才能真正改变你... ...你不再立flag，安安心心的运行今天系统，静待复利。
3. 过去你觉得成功重要，你喜欢关心天下大事、时事热点，后来你认为让自己变优秀才重要... ...有人跟你讨论热点，你开始觉得无聊，有人随大流，你却一点都不浮躁，有人操碎了别人的心，你觉得那很可笑……

所以，事实上完全没有必要“控制”情绪，“消灭”情绪。最有效的“调教白马”的手段很简单呀，让骑手不断的更新认知，打磨更新旧的认知，不断锤炼更好的价值观，而后通过重复思考，反复应用，而后交（教）给白马，即，建立正确的情绪。最神奇的是，新知识新技能白马用得多了，它还能把新东西传递给黑马，而黑马的反应更快。

思想的精进，最好就是聆听牛人们的心得体会、愿意探索知识。

第三：以错误为中心

正确的犯错误，积累自己的原则。正确的犯错误，是指每次犯错误后，都能对错误有完整的、理性的、全面的反思，而后把『错误』变成『原则』。

过程：『记录错误』->『变成原则』->『遵守原则』->『真正改变』，重要的是学会如何坚定自己的原则。

不管是自己，还是身边的朋友干出些傻事，绝大多数时候不是因为不够聪明，不够用功，而是因为不够理性。

其实，就跟一个人眼睛近视一样，非理性是大脑的近视。我们要是近视了，需要戴眼镜来矫正。你不能说，我知道我的视力不好，所以我每天练习看东西，使劲看，拼命看。

那没用。你应该学会使用工具。

七大工具可以让你跳过很多陷阱：

从不维护自己的正确；
从不在乎别人的评价；
从不受制于他人的情感波动；
从不忌讳残忍的坦诚；
从不同情自己的遭遇；
从不停止疯狂的探索；
永远追寻伟大的意义。

如果你心中有所敬畏，所谓的进步，其实并不是从傻X变成牛X的过程，而是从愚蠢变得不那么愚蠢的过程。

在这个世界上，有的人信神，有的人不信，由此而区分为有神论者和无神论者，宗教徒和俗人。不过，这个区分并非很重要。还有一个比这重要得多的区分，便是有的人相信神圣，有的人不相信，人由此而分出了高尚和卑鄙。

一个人可以不信神，但不可以不相信神圣。

有两种自卑。一种是面对上帝的自卑，这种人心怀对于无限的敬畏和谦卑之情，深知人类一切成就的局限，在任何情况下不会忘乎所以，不会狂妄。另一种是面对他人的自卑，这种人很在乎在才智、能力、事功或任何他所看重的方面同别人比较，崇拜强者，相应地也就渺视弱者，因此自卑很容易转变为自大。

也许有人会说，前一种自卑者骨子里其实最骄傲，因为他只敬畏上帝，而这就意味着看不起一切凡人。

然而事实是，既然他明白自己也是凡人，他就不会看不起别的凡人。只是由于他深知人类的局限，他对别人的成就只会欣赏，不会崇拜，对别人的弱点倒是很容易宽容。总之，他不把人当作神，所以对人不迷信也不苛求，不亢也不卑。

第四：分块，改进1%。

把和你的事情有关的所有你能想到事情进行分解，而后改进1%，当你把所有这一切都整合起来的时候，你就得到巨大的进步。

工具：系统动力学，书籍《系统之美》。

第五：不断提问，找到你能解决的问题。

如果出现问题，不断的问为什么。自己面临的问题到底是什么。并且，当探寻内心时，就会看到，仅仅把自己的内在过程认识清楚，所谓“问题”也就自动得到解决了。重点不在于答案，而在于你能不能提出这个问题。只会赞叹而提不出问题，你就是个看热闹的。能提出关键问题，你才算会看门道。掌握这个高级思维，你学什么就都没有白学，你才真的有可能用知识去改变世界。书籍：《茶杯里的风暴》。

要改变中奖率，你没有办法改变游戏规则，就只能改变自身的结构。

就像我们刚才说的，从系统层面上，把自己变成了一个中奖概率更高的骰子。这种改变往往是痛苦的，但更是脱胎换骨的。

贝叶斯定理

当一般人说自己“相信”什么事情的时候，TA通常不会考虑概率。

要么全信、要么全不信，默认真话，全信次数比较多，所以，一般人看世界就是模糊不清的。

而经过工程训练的人，更喜欢量化这个可信度。

您对某个假设的相信程度，应该用一个概率来表示 —— P( 假设 ) 。

用概率定义了信和不信，P = 1 就是绝对相信，P = 0 就是绝对不信，P = 15% 就是有一点信。

那要怎么得出真实概率呢？也许你认为有60％，实际上根本没有这么高。

先把假设的相信程度给量化，有了新的证据我们就更新这个概率，变成 —— P( 假设|证据 ) ，慢慢提高精确度，这比什么都 100% 好很多了。

如果您去大公司面试，遇到的可能是这样的题：

芝加哥有多少个钢琴调音师？
西雅图有多少个加油站？
北京有多少家星巴克？
当前所处的房间里能装下多少个高尔夫球？
… …

面试官不是要面试者估算得多精准，而是想测试你，面对什么线索都没有的问题时，你有没有解决问题的思路和办法。

如果靠直觉瞎猜，在数量级上会相差十万八千里，而遵循一套工程思路解决问题的人，对这个问题估计出来的大致数量级不大会错。

在工程里，量化方法就隐藏在量化目标中。

确定真正要量化什么，是几乎所有科学研究的起点。
量化思维的重点，不是计算，也不追求精确的数据，而是把握重点，要选择出需要量化的指标。
量化的方式能让不确定的问题，逐步清晰起来。使用量化思维，即使没有精确的数据，我们也能解决一些生活中，那些看似解决不了的问题。

量化的关键是，我们要意识到什么事情是应该量化的。这往往就是解决问题的突破点，掌握了量化的关键点，你其实就掌握了一种解决问题的能力。

问：芝加哥有多少个钢琴调音师？

… …

我们先把这个问题分解成几个小问题：

第一是，芝加哥有多少架钢琴？
第二是，钢琴每年要调几次音？
第三是，调一次得多长时间？
第四是，调音师平均每年工作多长时间？

一个一个解决。

第一个，芝加哥有多少架钢琴？

不知道，但是芝加哥的人口大概有250万，钢琴还蛮贵的，大概一百个人里，有两个人会有一架钢琴吧，这么一算，芝加哥大约有5万架钢琴。

第二个，钢琴每年要调几次音？

估计是一年一次。

第三个，调一次得多久？

大概两小时吧。

第四个，调音师每年工作多长时间呢？

按每天8小时的标准算，一年工作2000个小时，但调音师是上门服务的，要减去路上的时间。路上大概得花400个小时吧，调音师每年大概工作1600个小时。

答，我们有了以下这几条假设：

大约有250万人生活在芝加哥
每100个人中，约拥有2台钢琴
钢琴每年需要调整一次
每个调音师大约需要2小时来调一台琴
每个调音师每天上班8小时，包括路上时间一年需要2000个小时，所以一年总共调音1600小时

上面这些数字，全都是粗略的，都不精准。

我们就用这些数字简单算一下，5万架钢琴每年需要调一次音，每次两小时，一共就是10万小时，调音师每年工作1600小时。10万除以1600，得数是62.5，再四舍五入，估算出芝加哥大概有63位调音师。

那么，事实上芝加哥到底有多少钢琴调音师呢？

大约83名，有些人名还是重复的，可以说与估算的数值非常接近了。

如果我们只靠直觉，在事情开始前已经预先设定了判断标准，那肯定不是面试官想要的。

面试官更看重候选人解决问题的思路，是否更符合“格物致知”的本质：

不是自己的内心已经有各种规范和条理（直觉），然后将外在的材料放到内心的格子里，形成一个认知，不是这样的；而是通过点亮灯，走出去，与物近距离接触、互动、冲突、博弈，获得物的真实状况，在进程中，你一步步找到真相。

大公司面临的问题很多都是新问题，对于这些从来没见过的问题的解决方案，大部分人根本就不能事先就完整规划出来，于是问题在不同的人手里就有了不同的结果：

靠直觉、经验的人，会觉得这件事情根本不可能完成，这个问题肯定就解决不了；
有工程直觉的人，解决方案不是事先就完整规划出来的，而是自下而上一步步在过程当中找到的。

所以，生活中有模糊不清的地方，就量化吧，一开始肯定不精确，但这肯定比啥都是 100% 或者 0% 要好。

贝叶斯不是推理一次就完了，它是个反复的过程。每找到一个新信息，就进行一次推理，得到一个新判断。而下一个信息，要么进一步证实我们的判断，要么削弱我们的判断，就要对之前的判断进行调整。这样不断微调、不断微调，慢慢的，结果一定会和真实状况越来越接近。毫不夸张的说，贝叶斯最后一定会无穷逼近于真理。

$P(A)$ ：假设（先验概率，对一个对象的主观看法、第一印象）
$\frac{P(B|A)}{P(B) }$ ：调整因子（一件事情）
$P(A|B)$ ：逆概率（经过这件事情后，产生了新的看法）

举个例子：

看过《神雕侠侣》，年龄不是问题；
看过《金刚》，种族不是问题；
看过《倩女幽魂》，生死不是问题；
看过《断背山》，性别也不是问题。

贝叶斯公式右边乘法的 $\frac{P(B|A)}{P(B) }$ 有时候被称为 “似然比”（调整因子）。那就可以写成：

您可以把TA理解成 “观念更新” 的公式，P(假设) 是老观念，新证据发生之后，您的新观念是 P(假设|证据)。

新观念 = 老观念 * 似然比（调整因子）。
您的观点，随着事实，发生了改变。

所以，起点不重要，迭代很重要，就需要保持充分的开放和积累；而信息越充分，结果越可靠，又要求随时调整、不断逼近真相。这样每次精进一点，每次精进一点，这样的人可不就越活越通透，越活越聪明吗？

贝叶斯定理让我想到了一群牛人，那就是企业家：

马云当年说无论如何都不会做游戏，而现在游戏已经是阿里很重要的一块业务。
小米最开始出手机时，说手掌大小的手机最适合，绝对不会做大屏手机，而现在手机越做越大。
罗永浩说手机绝对不会低于3000块，后来果断降价了。
罗振宇说罗辑思维视频节目要做10年。做了不到一半就停更了。

我之所以说出以上这些案例，不是为了嘲笑他们的不坚守（那是傻子做的事），我想一定是他们的认知升级了，他们随着环境条件的变化刷新了自己的认知，立即产生了行动。

我想这是他们今天如此成功的原因之一，不是傻傻的坚守一个看似坚定不移的信念或者对自我的承诺，而是认真的观察这个世界发生的一切而随时矫正自己的行为方式。

贝叶斯计算难度不在于计算本身，而是寻找调整因子的客观数据，所以保持开发的心态，不要维护自己的错误，错了就是错了。（没关系、没关系，死不了、死不了～）

贝叶斯公式，是由条件概率的公式推导而来。

条件概率公式为： $P(B|A)=\frac{P(AB)}{P(A)}$

所以： $P(AB)=P(B|A)* P(A)$

改变 A 和 B 的顺序得到： $P(BA)=P(A|B) * P(B)$

$P(AB)$ 是 AB 同时发生的概率，和 $P(BA)$ 是一样的，带入条件概率公式，就得到了著名的贝叶斯公式：

$P(A|B)=P(B|A) * \frac{P(A)}{P(B)}$
$P(A|B)=\frac{P(B|A)}{P(B)}*P(A)$

这样做有啥好处呢？把一个复杂的问题转换为三个简单的问题。

比如计算一个人酒驾时出事故的概率：

$P(A|B)$ ：在酒驾的情况下，发生随机事件A的概率，也就是“出事故的概率”；这个就是我们要求的，但这个概率是先验概率，先于经验的，你得主观的猜测一个概率
$P(B)$ ：新现象或者新信息，也就是“酒驾”
$P(A)$ ：和现象B相关的随机事件，也就是“出事故”
$\frac{P(B|A)}{P(B)}$ ：调整因子，必须找到具体的数据。 $P(B)$ ：人们酒驾的概率、 $P(B|A)$ ：出现的交通事故中司机酒驾的概率，必须找到具体的数据，比如每 10 起交通事故，平均有 3 起司机是酒驾，那 $P(B|A) = 0.3$

这 4 个概率我们都知道了，真正困难的是确定酒驾的概率，因为酒驾有人被查到了，有人没被查到，这怎么算呢？其实，有一个替代数据可以参考，就是交警经常组织的酒驾检查。你可以把它想象成随机抽样，用检查到的酒驾司机的数量除以检查车辆的总数，大致就是酒驾的概率。贝叶斯计算难度不是在计算本身，而是寻找调整因子的客观数据。

垃圾邮件过滤：