人话入门贝叶斯统计学

本文是针对贝叶斯统计学的入门教程,旨在帮助读者理解贝叶斯思想及其与传统概率统计的区别。文章通过实例解释了贝叶斯统计的核心概念,如贝叶斯公式、条件概率、先验和后验分布,并对比了非贝叶斯统计处理方式。此外,还介绍了如何将分布参数视为随机变量,并提供了学习资源。
摘要由CSDN通过智能技术生成

人话入门贝叶斯统计学

你可能刚学完大学里面喜欢开的「概率论与数理统计」,知道各种各样的分布,听说过中心极限定理,会做一些参数估计。这时候是继续深入统计学的绝佳时机,然而大多数学校到这里就要期末考试了,非有关专业学生不会继续学习这方面课程,非常可惜。

本文从概率论结束开始,讲解对贝叶斯统计学的直观理解。你可能在概率论的课上学过一点点统计学,也可能很深入的学过统计学。在大多数情况下,大学开设的概率统计课程是「频率学派」或「Fisher学派」,而不是本文要讲的「贝叶斯学派」。大多数学生学过「频率学派」和「Fisher学派」,而没有学过「贝叶斯学派」,你可能也是这样,也可能两个都没学过,这不重要。本文着重讲解「贝叶斯学派」的基本想法,阅读本文后,你可以更顺滑地开始贝叶斯统计的正式学习,进而深入学习机器学习。

本文重在「个人理解」,而不是「事实」,个人理解不尽相同,海涵。

本文md文档源码链接:AnBlog/统计和机器学习

本文思维导图:
思维导图

可以参考的资源

这里推荐一些可以用于学习贝叶斯统计或其他统计的资源,你可以不阅读本文,直接根据这些资源开始学习。

首先是概率论,如果你的概率论基础不够扎实,可以看MIT公开课:

官网:MIT概率论

b站视频:MIT概率论

进阶统计学,主要讲的是非贝叶斯,后续慢慢讲点贝叶斯:

官网:MIT统计学

b站:MIT统计学

看完上面两个,基础知识就差不多了。这时候最好可以看书,看著名的机器学习书籍,是以贝叶斯统计为主的:MLAPP

推荐在于精而不在于多,能学号以上资源,就是很大的大佬!

如果你想看贝叶斯统计用于线性回归,请看:线性回归

用于简单的分类:朴素贝叶斯分类器

用于线性Logistic分类

下面正式开始本文。

前置认知

贝叶斯主义者如何思考

你坐在家里,准备出门。你在想门外是不是在下雨,你有了一个猜测,这个猜测可能是根据你对季节天气的经验,也可能就是一个随机的猜想,也可能是一厢情愿的认死理。

你走出门了,看到地上有一滩水。喔,可能还是下雨了呀。你心中「下雨」的可能增加了,「没下雨」的可能减少了。

再走出去几步,看到窗户外面有洒水车在洒水。刚才那摊水可能是洒水车洒的。你心中「下雨」的可能稍微减少了一点。

走到房子外面,没有感受到雨滴,你「确定」没有下雨了。但是地上到处都是水,屋檐上也再滴水,你心中「刚才下雨了」的可能增加了很多。

这样观察一些、改变一些概率的思考方式,就是贝叶斯统计的思考方式。这很符合直觉!

概率论和统计学的区别

「概率论」不等于「统计学」,你应该先区分两者。

得知随机变量满足的「概率分布」,也得知这个分布的参数,进而得知随机变量在某些区间取值的概率,这是「概率论」。

假设随机变量满足一些分布,通过「实验」,或称为「调查」、「统计」,得到一些「数据」或称为「样本」,通过这些数据估计这个分布的参数,这是「统计学」。

概率论已知参数求概率,统计学已知数据求参数。

在简单的抛硬币的例子里,带入公式求某面朝上的概率是「概率论」,通过多次试验估计某面朝上的概率是「统计学」。

贝叶斯和其他学派的不同

和其他学派不同,贝叶斯统计看法如下:

「实验数据」确定 (deterministic),不是随机变量。「分布参数」不确定,是随机变量,其分布通过实验数据得知。

你学过的统计学可能是:

「分布参数」是确定的(deterministic),存在所谓「真实值」。「实验数据」只是从同一个分布中「采样」出来的,是随机变量的一些样本。通过数据得到一个「接近」参数真实值的估计值。

这两种看法有本质上的不同,让你体会清楚,是本文的目的。这里以抛硬币为例,稍微介绍非贝叶斯统计的处理方式,以求和之后介绍的贝叶斯统计的处理方式作比较。

要估计硬币某面朝上的概率,做多次抛硬币实验。记朝上为1,没朝上为0,这样就有取值0,1的概率分布,是一个伯努利分布。记这个伯努利分布的参数为 θ \theta θ,也就是硬币某面朝上的概率是 θ \theta θ。多次抛硬币,就是从这个分布中取出独立同分布的多个样本。这些样本的平均值 X ‾ = 1 N ∑ i X i \overline X=\frac{1}{N}\sum_iX_i X=N1iXi,作为「正面朝上的概率」 θ \theta θ的估计值,这是「最大似然估计」的选择,即 θ ^ = X ‾ \hat\theta=\overline X θ^=X。这里 θ ^ \hat\theta θ^就是估计值,和真实值可能存在一点误差 ϵ = θ − θ ^ \epsilon=\theta-\hat\theta ϵ=θθ^。如果你还不了解「最大似然估计」或「矩估计」,只需要知道,他们是常用的参数估计的方法。

在这个过程中,每次抛硬币的结果 X i X_i Xi、得到的平均值 X ‾ \overline X X都是「随机变量」,也称为「统计量」。但是, θ \theta θ绝对不是「随机变量」,不论估计的方法如何。

贝叶斯处理手法

这里继续以抛硬币为例,具体介绍贝叶斯统计的处理手法。

贝叶斯公式复习

贝叶斯统计学基于贝叶斯公式。

有两个事件 A , B A,B A,B,他们发生的概率记为 P ( A ) , P ( B ) P(A),P(B) P(A),P(B),他们相互之间的条件概率可以这样表示:
P ( B ∣ A ) = P ( A B ) P ( A ) = P ( B ) P ( A ∣ B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(B)P(A|B)}{P(A)} P(BA)=P(A)P(AB)=P(A)P(B)P(AB)
你一定早就知道贝叶斯公式,如果记忆模糊了,最好先复习一下。

这里要指出来的是,贝叶斯公式将 A ∣ B A|B AB变成了 B ∣ A B|A BA ∣ | 前后的事件对换了。从某种程度上说,可以表述为,通过 A A A的概率推测了 B B B的概率

概率密度函数记号

我喜欢用 p ( x ) p(x) p(x)表达概率密度函数,你可能喜欢 f X ( x ) f_X(x) fX(x)这样的记号,或 p X ( x ) p_X(x) pX(x) f X ( x ) f_X(x) fX(x)使用下标指明了所属随机变量,而 p ( x ) p(x) p(x)需要根据语境「意会」,有些不明确。

我强烈建议你习惯 p ( x ) p(x) p(x)这样的记号,因为这是贝叶斯统计学喜欢的记号,许多作者采用这种记号,习惯了可以方便今后的阅读。这种记号也有它的优势所在,可以让读者的注意力集中在具体分布和各种随机变量的条件依赖关系。

使用这种记号的作者,包括我在内,会选择尽量显而易见的字母,如统计量记作 X X X,则选择 p ( x ) p(x) p(x),而不是 p ( y ) p(y) p(y),并且会在文字描述中做出说明。

条件概率记号

下文中,我常常写如 x ∣ θ x|\theta xθ这样的记号。你可能困惑,因为 x , θ x,\theta x,θ都不是「事件」,都是「随机变量」,不像上文的 A , B A,B A,B。这样写表示「在已知 θ \theta

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值