似然与概率

3 篇文章 0 订阅
这篇博客探讨了概率和统计的区别,以及在神经网络模型中的应用。似然是已知数据求参数,而概率则是已知参数求数据。最大似然估计(MLE)用于在大量数据中估计模型参数,而最大后验概率估计(MAP)则考虑了先验知识,适用于数据量较小或有特定先验信息的情况。MAP通过贝叶斯公式结合先验概率来调整参数估计。合理的先验概率假设在MAP中至关重要。
摘要由CSDN通过智能技术生成

论文中经常出现似然(likehood),在这片文章中总结一下有关概念。

概率的概念和统计的概念

概率的概念就是已知模型参数去推结果。
统计的概念就是已知结果去推模型参数。在神经网络模型中,就都是推参数的过程,也就基本都是统计的概念。

参数与数据

神经网络模型的重要两个部分就是参数数据
参数指模型的数学特性,也就是数学公示中的变量前的α,β等,再深度学习模型中是如CNN的kernel,FC的wij,正态分布的均值与方差之类的值。数据则是数学公式中的自变量和因变量,在深度学习模型中则是我们的输入数据input和估计值pred。
深度学习模型要做的事就是从数据去估计模型的参数,这就引出了似然的问题。

似然(likehood)和概率(probability)

概率就是已知参数求数据, P ( X ∣ θ ) P(X|\theta) P(Xθ)。形象举例,从A市到B市有很多路,我们知道每条路,去计算到达B市的概率。
似然就是已知数据求参数, P ( θ ∣ X ) P(\theta|X ) P(θX) 。形象举例,只知道已经从A市到达B市了,去估计到底是走那条路怎么到达的。

概率函数和似然函数

概率函数, P ( X ∣ θ ) P(X|\theta) P(Xθ)。已知参数求解的数学问题,带入公示即可,就不再讲述。
似然函数, P ( θ ∣ X ) P(\theta|X ) P(θX)。已知结果求参数的函数,这是一个没有确定的解的过程,我们只能尽可能地逼近真实解,也就引出了这个参数是什么样的才最有可能导致这个结果的问题,即最大似然估计。
由于计算往往是指数乘积的形式,因此通常情况下使用log对似然函数进行处理,也就是很多论文中出现的log likehood.

对于概率看法不同的两大派别频率学派

这部分内容节选自知乎的一篇文章 极大似然估计与最大后验概率估计

频率学派认为世界是世界是确定的。模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
贝叶斯派认为世界是不确定的,假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

最大似然估计(Maximum Likelihood Estimate,简称MLE)

MLE是求使 P ( θ ∣ X ) P(\theta|X ) P(θX)最大的 θ \theta θ。可以这样理解,结果已经发生,那么就要寻找使得结果最有可能发生的 θ \theta θ。这是一个求极值的问题,即求 ∇ θ l o g P = 0 \nabla_\theta log P=0 θlogP=0。概率论中有相关公示,这里就不再列出。

最大后验概率估计(Maximum A Posteriori estimation,简称MAP)

首先讲一下先验概率和后验概率。
先验概率是指根据以往经验和分析得到的概率。
比如扔硬币50%朝上,这是我们的经验或者主观认识,这在大多数情况(这也就是概率学派适用的大量数据情况 )下是对的。

后验概率是根据结果去修正的概率。
比如我们做实验发现扔硬币70%朝上,根据这个结果去修正扔硬币朝上的概率。这是有可能的,如硬币不均匀,破损,没有人能确定硬币的质量状态,我们只能先假设硬币是好的,抛起向上50%,然后根据结果70%来调整假设(也就是贝叶斯学派的先验假设)。
首先他是依赖于先验概率的,然后他根据结果对先验概率进行调整。
可用贝叶斯公示进行计算。如B是结果,A是先验知识, P ( A j ∣ B ) P(A_j|B) P(AjB)是后验概率,

P ( A j ∣ B ) = P ( B ∣ A j ) ∗ P ( A j ) P ( B ) = P ( B ∣ A j ) ∗ P ( A j ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(A_j|B)=\frac{P(B|A_j)*P(A_j)} {P(B)}=\frac{P(B|A_j)*P(A_j)} {\sum_{i=1}^nP(B|A_i)P(A_i)} P(AjB)=P(B)P(BAj)P(Aj)=i=1nP(BAi)P(Ai)P(BAj)P(Aj)

我们知道贝叶斯派认为世界是不确定的,因此这种根据结果来调整先验概率的思想就很自然了。

最大后验概率估计
a r g m a x θ P ( θ ∣ X ) = a r g m a x θ P ( X ∣ θ ) P ( θ ) p ( X ) \mathop {argmax}_{\theta}P(\theta|X)=\mathop {argmax}_{\theta}\frac{P(X|\theta)P(\theta)}{p(X)} argmaxθP(θX)=argmaxθp(X)P(Xθ)P(θ)
由于X是确定的, P ( X ) P(X) P(X)确定的,MAP就转为优化 a r g m a x θ P ( X ∣ θ ) P ( θ ) \mathop {argmax}_{\theta}P(X|\theta)P(\theta) argmaxθP(Xθ)P(θ)

从贝叶斯学派的角度思考,参数估计要考虑先验知识(我们假设的参数 θ \theta θ)的概率的,MAP中就考虑了 P ( θ ) P(\theta) P(θ),最大化的对象从 P ( θ ∣ X ) P(\theta|X) P(θX)变成了 P ( θ ∣ X ) P ( X ) P(\theta|X)P(X) P(θX)P(X)
因此合理的先验概率假设是很重要的,我们需要去人为的假设参数的大致分布。

插一句,感觉在VAE中,把latent space转成正态布的思路也是基于此。
此外还有在最大厚颜概率估计的基础上的进一步拓展,贝叶斯估计,这里不再讲。可见简书的一篇文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiangz201

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值