独家 | 一文带你熟悉贝叶斯统计

作者:Matthew Ward

翻译:陈之炎

校对:陈丹

本文约5000字,建议阅读10+分钟

本文为你带来贝叶斯统计的基础示例及全面解释。

标签:贝叶斯统计

 

图:Unsplash,Chris Liverani

 

贝叶斯统计这个术语最近被广泛使用。它常用于社交场合、游戏和日常生活中,如棒球、扑克、天气预报、总统选举投票等。

在许多科学领域,可以用贝叶斯统计来确定粒子物理和药物有效性实验的结果,它还可用于机器学习和人工智能,以预测你想看什么新闻故事或观看什么Netflix节目。

不管是否对它有充分的理解,贝叶斯统计已融入了我们的日常生活当中,为此,笔者想通过本文对贝叶斯统计做全面的解读,通过一个详尽的例子来展示这个术语的含义。一旦你理解了这个例子,那么便基本上理解了贝叶斯统计。

首先,在读本文之前,假设读者事先对Bayes定理有所熟悉,愿意把公式当成一个黑匣子的读者,也不成问题。如果需要复习一下贝叶斯定理的话,可以到 Medium resources(https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb)中查找相关资源。

 

示例和原始观察

这是教科书中经常用到的一个经典例子,我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次了解到它的,现在已经找不到当时的副本拷贝了,所以这里的任何内容重复纯属偶然。

还是从抛硬币实验开始,把一个硬币翻转N次,每次出现正面时记录一个1,每次出现背面时记录一个0,这便构成了一个数据集。利用这个数据集和Bayes定理,我们想弄清楚抛硬币的结果是否有偏差,以及这个实验的置信度。

技术含量的内容来了:首先定义θ是出现正面的偏差——即硬币落地时出现正面的概率。

这意味着,如果θ=0.5,那么没有偏差,正反面出现的概率完全均等。如果θ=1,那么硬币就永远不会出现反面。如果θ=0.75,那么如果翻转硬币的次数足够大的话,将看到大约每4次翻转中有3次出现正面。

 

为此,定义 y为硬币是否落在正面或背面的特征。这意味着y只能是0(反面)或1(正面),可以用P(y=1|θ)=θ对这些信息进行数学编码。

打开天窗说亮话:如果硬币为正面的概率是θ,那么出现正面的偏差便是θ。

同理: P(y=0|θ)=1 - θ

现在,把多次硬币实验串起来,当抛掷N 次硬币时,出现a 次正面(虽然,重复使用a 不太应该,但这样却使得后续符号标注更为便捷)。

由于硬币翻转相互独立,只需将概率相乘,于是:

为了避免使用总数N和减法 ,通常定义b为出现反面的次数,写成:

 

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值