作者:Matthew Ward
翻译:陈之炎
校对:陈丹
本文约5000字,建议阅读10+分钟
本文为你带来贝叶斯统计的基础示例及全面解释。
标签:贝叶斯统计
图:Unsplash,Chris Liverani
贝叶斯统计这个术语最近被广泛使用。它常用于社交场合、游戏和日常生活中,如棒球、扑克、天气预报、总统选举投票等。
在许多科学领域,可以用贝叶斯统计来确定粒子物理和药物有效性实验的结果,它还可用于机器学习和人工智能,以预测你想看什么新闻故事或观看什么Netflix节目。
不管是否对它有充分的理解,贝叶斯统计已融入了我们的日常生活当中,为此,笔者想通过本文对贝叶斯统计做全面的解读,通过一个详尽的例子来展示这个术语的含义。一旦你理解了这个例子,那么便基本上理解了贝叶斯统计。
首先,在读本文之前,假设读者事先对Bayes定理有所熟悉,愿意把公式当成一个黑匣子的读者,也不成问题。如果需要复习一下贝叶斯定理的话,可以到 Medium resources(https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb)中查找相关资源。
示例和原始观察
这是教科书中经常用到的一个经典例子,我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次了解到它的,现在已经找不到当时的副本拷贝了,所以这里的任何内容重复纯属偶然。
还是从抛硬币实验开始,把一个硬币翻转N次,每次出现正面时记录一个1,每次出现背面时记录一个0,这便构成了一个数据集。利用这个数据集和Bayes定理,我们想弄清楚抛硬币的结果是否有偏差,以及这个实验的置信度。
技术含量的内容来了:首先定义θ是出现正面的偏差——即硬币落地时出现正面的概率。
这意味着,如果θ=0.5,那么没有偏差,正反面出现的概率完全均等。如果θ=1,那么硬币就永远不会出现反面。如果θ=0.75,那么如果翻转硬币的次数足够大的话,将看到大约每4次翻转中有3次出现正面。
为此,定义 y为硬币是否落在正面或背面的特征。这意味着y只能是0(反面)或1(正面),可以用P(y=1|θ)=θ对这些信息进行数学编码。
打开天窗说亮话:如果硬币为正面的概率是θ,那么出现正面的偏差便是θ。
同理: P(y=0|θ)=1 - θ
现在,把多次硬币实验串起来,当抛掷N 次硬币时,出现a 次正面(虽然,重复使用a 不太应该,但这样却使得后续符号标注更为便捷)。
由于硬币翻转相互独立,只需将概率相乘,于是:
为了避免使用总数N和减法 ,通常定义b为出现反面的次数,写成: