文章目录
贝叶斯理论
贝叶斯公式到底在说什么?
贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)
似然函数
P ( X ∣ θ ) P(X|θ) P(X∣θ)
其中θ是概率模型的未知参数
先验概率
P ( θ ) P(θ) P(θ)
后验概率
P ( θ ∣ X ) = P ( θ ) ∗ P ( X ∣ θ ) / P ( X ) P(θ|X)=P(θ)*P(X|θ)/P(X) P(θ∣X)=P(θ)∗P(X∣θ)/P(X)
贝叶斯公式
P ( A ∣ B ) = P ( A ) P ( B ∣ A ) / P ( B ) = P ( A ) P ( B ∣ A ) / [ P ( A ) P ( B ∣ A ) + P ( ∼ A ) P ( B ∣ ∼ A ) ] P(A|B)=P(A)P(B|A)/P(B)\\=P(A)P(B|A)/[P(A)P(B|A)+P(\sim A)P(B|\sim A)] P(A∣B)=P(A)P(B∣A)/P(B)=P(A)P(B∣A)/[P(A)P(B∣A)+P(∼A)P(B∣∼A)]
A:车被砸了
B:警报响了
P(A|B)警报响了是因为车被砸了的概率=P(A)车被砸了的概率×P(B|A)车被砸了时警报会响的概率÷P(B)警报响了的概率
假如观测到了警报响了,那么人们会忽略警报的原因是:先验概率P(A)告诉我们,车被砸了的概率不大。所以,尽管P(B|A)=1,即车被砸了一定会报警,但是由于先验概率低,人们会认为是其他因素导致。比如先验概率更大的P(A)发生了,尽管P(B|A)<P(B|A)
做判断的时候,要考虑所有的因素。一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情。 老板骂你,不一定是你把什么工作搞砸了,可能只是他今天出门前和太太吵了一架。
最大似然估计(MLE)
X i ∼ ( i i d ) P ( x ∣ θ ) θ ∗ = a r g m a x P ( X ∣ θ ) = a r g m a x P ( X 1 , X 2 , . . . X n ∣ θ ) = a r g m a x Π P ( X i ∣ θ ) = a r g m a x Σ l o g P ( X i ∣ θ ) Xi\sim (iid) P(x|\theta) \\θ*=argmaxP(X|θ)=argmaxP(X1,X2,...Xn|\theta)\\=argmax\Pi P(Xi|θ)=argmax\Sigma logP(Xi|\theta) Xi∼(iid)P(x∣θ)θ∗=argmaxP(X∣θ)=argmaxP(X1,X2,...Xn∣θ)=argmaxΠP(Xi∣θ)=argmaxΣlogP(Xi∣θ)
对于一个含有未知参数的概率模型,我们通过n次重复独立实验的结果来估计未知参数。
我们用似然函数的n次连乘积表示这n次独立重复实验的结果发生的概率L。我们认为这n次试验的结果能够发生,是因为它是大概率事件,于是最大化P(X|θ),对应的θ的取值就是答案。
例:铸币厂制作了一批硬币,投硬币看这硬币是否均匀。模型:0-1分布,P(正面)=θ
数据:反正正正正反正正正反
L
=
θ
7
(
1
−
θ
)
3
θ
=
a
r
g
m
a
x
L
=
0.7
L=θ^7(1-θ)^3\\θ=argmaxL=0.7
L=θ7(1−θ)3θ=argmaxL=0.7
显然,这个结果受“此次试验”的影响太大,需要引入先验概率。
MLE中并未运用先验概率和后验概率的知识,只运用了似然函数
最大后验概率估计(MAP)
最大后验概率估计提出了一个很先进的想法:
参数θ并不是一个单纯的未知常量,θ也是服从某个分布的随机变量。并且在存在先验分布P(θ)和后验分布P(θ|X)。并通过贝叶斯定理,把参数的先验和后验用似然函数链接在一起
我们要估计的是在已知实验结果情况下,概率模型参数的取值,也就是我们需要求出使P(θ|X)最大的θ的值。
θ
=
a
r
g
m
a
x
P
(
θ
∣
X
)
P
(
θ
∣
X
)
=
P
(
θ
)
P
(
X
∣
θ
)
/
P
(
X
)
所以:
θ
=
a
r
g
m
a
x
P
(
θ
)
∏
P
(
X
i
∣
θ
)
\theta=argmaxP(\theta|X)\\ P(\theta|X)=P(\theta)P(X|\theta)/P(X)\\ 所以:\theta=argmaxP(\theta)∏P(Xi|\theta)
θ=argmaxP(θ∣X)P(θ∣X)=P(θ)P(X∣θ)/P(X)所以:θ=argmaxP(θ)∏P(Xi∣θ)
上述的公式可以用前面的离散化例子:警报响了的例子理解
MAP和MSE的不同在于,MAP考虑了先验概率的作用,θ的取值不仅需要让“似然函数”,θ本身的概率也要高。
对于硬币问题,假设P(θ)为均值0.5,方差0.1的高斯函数。实际上,在θ=0.558时取得最大值。
最后,那要怎样才能说服一个贝叶斯派相信θ = 0.7 \theta = 0.7θ=0.7呢?你得多做点实验。。
如果做了1000次实验,其中700次都是正面向上,如果仍然假设P ( θ ) 为均值0.5,方差0.1的高斯函数。在θ = 0.696处,MAP函数取得最大值。这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把θ估计在0.7附近了。
贝叶斯估计
MAP是只需要求出P(θ|X)取得最大值时θ的值(众数),而标准的贝叶斯估计需要完整的求出后验概率P(θ|X)的函数表达式。难点在于分母的P(X)需要展开成难以求出的积分,这个积分需要在整个参数域中积分:
P
(
θ
∣
X
)
=
P
(
θ
)
P
(
X
∣
θ
)
/
P
(
X
)
=
P
(
θ
)
P
(
X
∣
θ
)
/
∫
P
(
θ
)
P
(
X
∣
θ
)
d
θ
P(\theta|X)=P(\theta)P(X|\theta)/P(X)\\ =P(\theta)P(X|\theta)/\int P(\theta)P(X|\theta)d\theta
P(θ∣X)=P(θ)P(X∣θ)/P(X)=P(θ)P(X∣θ)/∫P(θ)P(X∣θ)dθ
作用:贝叶斯预测
输入一个新数据为x的概率是 :
P
(
x
∣
X
)
=
∫
P
(
x
,
θ
∣
X
)
d
θ
=
∫
P
(
x
∣
θ
)
P
(
θ
∣
X
)
d
θ
P
(
x
∣
θ
)
是似然函数,已知;
P
(
θ
∣
X
)
就是贝叶斯估计出的后验概率。
P(x|X)=\int P(x,\theta|X)d\theta\\=\int P(x|\theta)P(\theta|X)d\theta\\ P(x|\theta)是似然函数,已知;P(\theta|X)就是贝叶斯估计出的后验概率。
P(x∣X)=∫P(x,θ∣X)dθ=∫P(x∣θ)P(θ∣X)dθP(x∣θ)是似然函数,已知;P(θ∣X)就是贝叶斯估计出的后验概率。
贝叶斯理论引出了概率图模型,最难的问题在于分母求积分,也就是求积分问题->引出MCMC
频率派引出了统计机器学习,也就是建模,损失函数,梯度下降的优化问题
最大似然估计和最大后验概率估计的区别
相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。
概率图模型
概率图模型初步:从贝叶斯网络到HMM模型_哔哩哔哩_bilibili
下面一离散型随机变量为例。
二维联合概率密度P(X1,X2),假如每个变量有3种取值,那么概率分布的表格中需要参数:3^2-1=8个参数。
高维联合概率密度P(X1,X2,X3,X4…Xk),每个变量有m种取值
-
对于变量间的是否独立均“不可知”,则默认都是相关的,需要参数 m k − 1 m^k-1 mk−1个参数(也就是离散型概率分布律表中数字的数量-1)。
-
变量间都是相互独立的,则需要参数 k ( m − 1 ) k(m-1) k(m−1)个
-
高维度联合概率表写作如下
可见,高维联合概率密度由于巨大的参数量一般难以建模,而“相互独立”这个条件可以大大降低参数的个数。
我们生活中的模型,一般既不是“都相互独立”,也不是“都相互依赖”,而是介于二者之间。我们用概率图模型可以对这种常见情况建模。
概率图模型可以对高维的概率密度函数进行分解,将一个复杂的联合概率模型分解为一些简单条件概率模型的组合,并用图的方式,直观地表示出随机变量的依赖关系与独立关系,进而减少参数、简化模型复杂度。
- 有向概率图模型——贝叶斯网络
- 无向概率图模型——马尔科夫随机场
贝叶斯网络
上述贝叶斯网络的表示联合概率分布的公式是由“条件独立性”得到的(后面细说)
用概率图分解的角度解释上面的高维联合概率分布
P(X1,X2,X3…Xk)=P(X1)P(X2|X1)P(X3|X1,X2)…
概率图中的节点 | 需要参数个数 |
---|---|
P(X1) | m-1 |
P(X2|X1) | m*(m-1) |
P(X3|X1,X2) | m^2*(m-1) |
k个节点合计 | m^k-1 |
例: 假设有四个二值变量 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4,在不知道这几个变量依赖关系的情况下,可以用一个联合概率表来记录每一种取值的概率𝑝(𝒙1∶4),共需要 2 4 − 1 = 15 2^4 −1 = 15 24−1=15个参数。假设在已知𝑋1 时,𝑋2 和𝑋3 独立;在已知𝑋2 和𝑋3 时,𝑋4 也和𝑋1 独立。
那么联合概率可以写作:
p
(
x
)
=
p
(
x
1
,
x
2
,
x
3
,
x
4
)
=
p
(
x
1
)
p
(
x
2
∣
x
1
)
p
(
x
3
∣
x
1
)
p
(
x
4
∣
x
2
,
x
3
)
p(x)=p(x1,x2,x3,x4)=p(x1)p(x2|x1)p(x3|x1)p(x4|x2,x3)
p(x)=p(x1,x2,x3,x4)=p(x1)p(x2∣x1)p(x3∣x1)p(x4∣x2,x3)
概率图中的节点 | 需要参数个数 |
---|---|
P(X1) | 1 |
P(X2|X1) | 2*(2-1)=2 |
P(X3|X1) | 2*(2-1)=2 |
p(x4|x2,x3) | 2^2*(2-1)=4 |
合计参数 | 9 |
例:
Difficulty和Intelligence是先验概率,其他是条件概率
条件独立性与概率流动
概率的流动性(有效迹)
给定观测变量的子集Z,如果在X1和Xn之间存在一条路径(跟箭头方向无关),使得二者的概率取值能够相互影响,那么称这条路径为有效迹。
比如在Z=∅时,下图的a,b,c的X1-X3之间概率流动(存在有效迹),d图中X1-X3则没有。
d-分离
如果在给定Z时,X节点-Y节点之间不存在有效迹,则称是d分离的,记作d-sep(X,Y|Z)
比如在Z={X2}时,下图的a,b,c的X1-X3之间d分离,d图中X1-X3则概率流动。
如果概率图模型G满足d-sep(X,Y|Z),则X与Y条件独立。
贝叶斯网络中条件独立性的分析
a图:
X
1
与
X
3
概率独立
∣
X
2
反之不独立(概率流动)
X1与X3概率独立|X2\\反之不独立(概率流动)
X1与X3概率独立∣X2反之不独立(概率流动)
b图:
X
1
与
X
3
概率独立
∣
X
2
反之不独立(概率流动)
X1与X3概率独立|X2\\反之不独立(概率流动)
X1与X3概率独立∣X2反之不独立(概率流动)
c图:
X
1
与
X
3
概率独立
∣
X
2
反之不独立(概率流动)
X1与X3概率独立|X2\\反之不独立(概率流动)
X1与X3概率独立∣X2反之不独立(概率流动)
d图:
X
1
与
X
3
概率流动
∣
X
2
反之独立
X1与X3概率流动|X2\\反之独立
X1与X3概率流动∣X2反之独立
“反之”意味着X2为隐变量(不可观测变量)
局部马尔可夫性质
对一个更一般的贝叶斯网络,其局部马尔可夫性质为:每个随机变量在给定父节点的情况下,条件独立于它的非后代节点。
这也就解释了贝叶斯网络链式法则的合理性。
P
(
X
)
=
∏
p
(
X
i
∣
P
a
r
e
n
t
s
(
i
)
)
P(X)=∏p(Xi|Parents(i))
P(X)=∏p(Xi∣Parents(i))
贝叶斯网络联合概率展开式的合理性
下面用实例展示:条件独立性(局部马尔科夫性质)对公式进行拆解后,就是贝叶斯网络链式法则根据图中的“parent”关系得到的计算式。
蓝色箭头表示通过条件独立性优化后得到的条件概率。
**最终我们发现:通过条件独立性优化后的式子,就是“看图找亲戚”的贝叶斯网络公式得到的计算式。**综上,我们解释了什么是贝叶斯网络,以及贝叶斯网络联合概率分布的因子分解公式的合理性。
应用
根据题中的例子,理解依靠概率图的推断的物理意义。计算部分还没到。
因果推断
顺着箭头推断
证据推断
逆着箭头推断(已知结果求证据)
交叉因果推断
双向箭头推断