看完让你眼前一黑的【频率学派】和【贝叶斯学派】之争

叠三级甲

文章总结了笔者对频率学派观点和贝叶斯学派观点在哲学上的一些思考,可能存在过度解读或理解不到位的地方,请多多担待!

更深层次的思考(24.10.7)

频率学派贝叶斯学派在理念上的争端,往小了说,可以是机器学习领域是否给损失函数加上正则化项,因为正则化通常可以看作是在损失函数中加入了某种先验知识,这更接近贝叶斯学派的思想,即通过某种形式的先验约束来避免过拟合。而频率学派则更倾向于让数据自我驱动,尽可能少地依赖外部假设。而往大了说,可以上升到唯心主义唯物主义的哲学讨论。

频率学派强调概率是某种客观存在的,他们认为概率分布是固定的,但是不可观测,就好像是世界的底层运行规律,它独立于任何个体的主观认知,我们通过不断观察和实验来揭示这个世界的规律。他们认为所有的观测和现象只是这些底层规律在现实世界的投射和影响。换句话说,概率是事件在无限次重复实验中出现的频率趋向的一个数值,那个他们心中的真理,这也是大数定理的核心观点:因为现实世界是受这些法则所约束的,所以当观察数量足够多的时候,这些现象所展现的统计规律就反应了世界底层的运行规则。就好像信息论中,由渐近等分性推导的典型集的概念,某一系列事件的观察结果有很多种可能,然而实际观察的结果往往却落在几个极小的组合内。当然,渐近等分性本身就是大数定理的拓展。频率学派的观点是直观的,符合人们直觉的,更容易接受的。

贝叶斯学派则提供了一个更加主观的概率解释,他们的核心思想是概率代表信念,而信念可以通过新的证据不断更新。换句话说,概率依赖于观察者的知识和经验,这有点像唯心主义,认为世界是通过人的认知和意识来“构建”的。贝叶斯学派假设我们所有的知识都建立在我们已有的信念基础上,并通过不断更新来接近“真实的世界”。他们只相信他们的所见所闻,他们相信上帝是会掷骰子的。类比量子力学的观点,贝叶斯学派更倾向于认为世界是充满不确定性的,我们只能根据已有的信息去估计和修正那些不确定性。某一次观察的结果只是概率的坍缩,而实际的概率分布本身还满足其他的概率分布。人们根据自己的经验,给出某个概率的先验分布,再通过观察到的事实来修正这个最初的信念,得到后验概率分布

频率学派

频率学派认为,一个事件的概率分布(相关参数 θ \theta θ)是确定但未知的,我们所观察到的某个样本来自于这个确定的概率分布 f ( y i ∣ θ ) f(y_i|\theta) f(yiθ)。因为这是一个概率分布,所以样本是随机的。而观察到某个样本集合的概率 p ( y ∣ θ ) p(\mathbf{y}|\theta) p(yθ),也就是该样本集合的似然函数为: L ( θ ∣ y ) ≡ p ( y ∣ θ ) = ∏ i = 1 n f ( y i ∣ θ ) L(\theta|\mathbf{y})\equiv p(\mathbf{y}|\theta)=\prod_{i=1}^{n}f(y_i|\theta) L(θy)p(yθ)=i=1nf(yiθ)。频率学派的观点是基于长期频率的,他们认为随着试验次数趋于无穷大,事件的相对频率将趋于真实的概率值。这种收敛性是由大数定理保证的。换言之,他们认为观察到的样本集合属于该概率分布下的必然结果,所以通过找到使得观察到的样本集合最有可能出现的参数值来估计概率分布(相关参数 θ \theta θ)。

贝叶斯学派

而贝叶斯学派认为概率分布(相关参数 θ \theta θ)是不是固定的,而是满足某些概率分布的,因为只通过观察到的数据样本并不能确定参数的真实值,换言之,同一组样本可能对应很多不同的分布。他们通过先假设样本服从的概率分布(相关参数 θ \theta θ),然后通过观察到的样本来更新对参数的信念不确定性。在贝叶斯学派看来,观察到的样本是已经发生的确定事件,通过计算后验分布的方法,修正先验概率分布,进而进行贝叶斯预测。而后验概率的计算涉及到贝叶斯估计,包括蒙特卡洛、拉普拉斯、重要比值、变分推断等一些列方法。

【举个例子】:假设我们投掷一枚硬币正面朝上的概率是 θ \theta θ,这是我们想要推断的参数。我们已经知道投掷硬币是一个伯努利分布。现在我们观察到一组样本 y = { 1 , 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 } \mathbf{y}=\{1,1,1,1,1,1,1,0,0,0\} y={1,1,1,1,1,1,1,0,0,0},其中正面朝上 ( X = 1 ) (X=1) (X=1)出现7次,背面朝上 ( X = 0 ) (X=0) (X=0)出现3次。

假设我们对 θ \theta θ的先验分布是均匀分布,即 P ( θ ) = U n i f o r m ( 0 , 1 ) P(\theta)=Uniform(0,1) P(θ)=Uniform(0,1),这意味着我们不偏向认为硬币是偏向正面还是偏向反面。均匀分布可以看作是Beta分布的特例,即 θ ∼ B e t a ( 1 , 1 ) \theta\sim Beta(1,1) θBeta(1,1)。Beta 分布是伯努利分布的共轭先验分布,这意味着在更新先验时,后验分布仍然是 Beta 分布的形式。

给定参数和观察到的样本,我们可以写出样本的似然函数: P ( y ∣ θ ) = θ 7 ( 1 − θ ) 3 P(\mathbf{y}|\theta)=\theta^7(1-\theta)^3 P(yθ)=θ7(1θ)3

根据贝叶斯定理,后验分布 P ( θ ∣ y ) = P ( y ∣ θ ) P ( θ ) P ( y ) P(\theta|\mathbf{y})=\frac{P(\mathbf{y}|\theta)P(\theta)}{P(\mathbf{y})} P(θy)=P(y)P(yθ)P(θ),带入先验分布 P ( θ ) ∼ B e t a ( 1 , 1 ) P(\theta)\sim Beta(1,1) P(θ)Beta(1,1)和似然函数,我们得到: P ( θ ∣ y ) ∝ θ 7 ( 1 − θ ) 3 ⋅ θ 1 − 1 ( 1 − θ ) 1 − 1 = θ 7 ( 1 − θ ) 3 P(\theta|\mathbf{y})\propto \theta^7(1-\theta)^3\cdot \theta^{1-1}(1-\theta)^{1-1}=\theta^7(1-\theta)^3 P(θy)θ7(1θ)3θ11(1θ)11=θ7(1θ)3,因此后验分布是: θ ∣ y ∼ B e t a ( 8 , 4 ) \theta|\mathbf{y}\sim Beta(8,4) θyBeta(8,4)

后验分布Beta(8,4)表示我们观察到7次正面和3次背面之后,对硬币正面朝上概率 θ \theta θ的更新信念。

均值:Beta分布的均值为 α α + β \frac{\alpha}{\alpha+\beta} α+βα,因此后验分布的均值是: E [ θ ∣ y ] = 0.67 E[\theta|\mathbf{y}]=0.67 E[θy]=0.67,这意味着在观察到数据后,我们认为硬币正面朝上的概率约为0.67。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值