论文中经常出现似然(likehood),在这片文章中总结一下有关概念。
概率的概念和统计的概念
概率的概念就是已知模型参数去推结果。
统计的概念就是已知结果去推模型参数。在神经网络模型中,就都是推参数的过程,也就基本都是统计的概念。
参数与数据
神经网络模型的重要两个部分就是参数与数据。
参数指模型的数学特性,也就是数学公示中的变量前的α,β等,再深度学习模型中是如CNN的kernel,FC的wij,正态分布的均值与方差之类的值。数据则是数学公式中的自变量和因变量,在深度学习模型中则是我们的输入数据input和估计值pred。
深度学习模型要做的事就是从数据去估计模型的参数,这就引出了似然的问题。
似然(likehood)和概率(probability)
概率就是已知参数求数据,
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)。形象举例,从A市到B市有很多路,我们知道每条路,去计算到达B市的概率。
似然就是已知数据求参数,
P
(
θ
∣
X
)
P(\theta|X )
P(θ∣X) 。形象举例,只知道已经从A市到达B市了,去估计到底是走那条路怎么到达的。
概率函数和似然函数
概率函数,
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)。已知参数求解的数学问题,带入公示即可,就不再讲述。
似然函数,
P
(
θ
∣
X
)
P(\theta|X )
P(θ∣X)。已知结果求参数的函数,这是一个没有确定的解的过程,我们只能尽可能地逼近真实解,也就引出了这个参数是什么样的才最有可能导致这个结果的问题,即最大似然估计。
由于计算往往是指数乘积的形式,因此通常情况下使用log对似然函数进行处理,也就是很多论文中出现的log likehood.
对于概率看法不同的两大派别频率学派
这部分内容节选自知乎的一篇文章 极大似然估计与最大后验概率估计
频率学派认为世界是世界是确定的。模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
贝叶斯派认为世界是不确定的,假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。
最大似然估计(Maximum Likelihood Estimate,简称MLE)
MLE是求使 P ( θ ∣ X ) P(\theta|X ) P(θ∣X)最大的 θ \theta θ。可以这样理解,结果已经发生,那么就要寻找使得结果最有可能发生的 θ \theta θ。这是一个求极值的问题,即求 ∇ θ l o g P = 0 \nabla_\theta log P=0 ∇θlogP=0。概率论中有相关公示,这里就不再列出。
最大后验概率估计(Maximum A Posteriori estimation,简称MAP)
首先讲一下先验概率和后验概率。
先验概率是指根据以往经验和分析得到的概率。
比如扔硬币50%朝上,这是我们的经验或者主观认识,这在大多数情况(这也就是概率学派适用的大量数据情况 )下是对的。
后验概率是根据结果去修正的概率。
比如我们做实验发现扔硬币70%朝上,根据这个结果去修正扔硬币朝上的概率。这是有可能的,如硬币不均匀,破损,没有人能确定硬币的质量状态,我们只能先假设硬币是好的,抛起向上50%,然后根据结果70%来调整假设(也就是贝叶斯学派的先验假设)。
首先他是依赖于先验概率的,然后他根据结果对先验概率进行调整。
可用贝叶斯公示进行计算。如B是结果,A是先验知识,
P
(
A
j
∣
B
)
P(A_j|B)
P(Aj∣B)是后验概率,
P ( A j ∣ B ) = P ( B ∣ A j ) ∗ P ( A j ) P ( B ) = P ( B ∣ A j ) ∗ P ( A j ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(A_j|B)=\frac{P(B|A_j)*P(A_j)} {P(B)}=\frac{P(B|A_j)*P(A_j)} {\sum_{i=1}^nP(B|A_i)P(A_i)} P(Aj∣B)=P(B)P(B∣Aj)∗P(Aj)=∑i=1nP(B∣Ai)P(Ai)P(B∣Aj)∗P(Aj)
我们知道贝叶斯派认为世界是不确定的,因此这种根据结果来调整先验概率的思想就很自然了。
最大后验概率估计
a
r
g
m
a
x
θ
P
(
θ
∣
X
)
=
a
r
g
m
a
x
θ
P
(
X
∣
θ
)
P
(
θ
)
p
(
X
)
\mathop {argmax}_{\theta}P(\theta|X)=\mathop {argmax}_{\theta}\frac{P(X|\theta)P(\theta)}{p(X)}
argmaxθP(θ∣X)=argmaxθp(X)P(X∣θ)P(θ)
由于X是确定的,
P
(
X
)
P(X)
P(X)确定的,MAP就转为优化
a
r
g
m
a
x
θ
P
(
X
∣
θ
)
P
(
θ
)
\mathop {argmax}_{\theta}P(X|\theta)P(\theta)
argmaxθP(X∣θ)P(θ)
从贝叶斯学派的角度思考,参数估计要考虑先验知识(我们假设的参数
θ
\theta
θ)的概率的,MAP中就考虑了
P
(
θ
)
P(\theta)
P(θ),最大化的对象从
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X)变成了
P
(
θ
∣
X
)
P
(
X
)
P(\theta|X)P(X)
P(θ∣X)P(X)。
因此合理的先验概率假设是很重要的,我们需要去人为的假设参数的大致分布。
插一句,感觉在VAE中,把latent space转成正态布的思路也是基于此。
此外还有在最大厚颜概率估计的基础上的进一步拓展,贝叶斯估计,这里不再讲。可见简书的一篇文章