先验概率、后验概率;概率与似然;最大似然估计

1.先验概率 与 后验概率

  • 先验概率与后验概率是和贝叶斯概率更新有关的两个概念。假如某一不确定事件发生的主观概率,因为某个新情况的出现而发生了改变,那么改变前的那个概率就被叫做先验概率,改变后的概率就叫后验概率。形如P(B|A) 是B的后验概率,也称为似然概率;P(B)是B的先验概率。
  • 想象有 A、B、C 三个不透明的碗倒扣在桌面上,已知其中有(且仅有)一个瓷碗下面盖住一个鸡蛋。此时请问,鸡蛋在 A 碗下面的概率是多少?答曰 1/3。
    现在发生一件事:有人揭开了 C 碗,发现 C 碗下面没有蛋。此时再问:鸡蛋在 A 碗下面的概率是多少?答曰 1/2。注意,由于有“揭开C碗发现鸡蛋不在C碗下面”这个新情况,对于“鸡蛋在 A 碗下面”这件事的主观概率由原来的 1/3 上升到了1/2。这里的先验概率就是 1/3,后验概率是 1/2。
    也就是说“先”和“后”是相对于引起主观概率变化的那个新情况而言的。  
  • 顺便简单温习一下贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A)。即,将先验概率乘以似然函数(likelihoodfunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。

2.概率与似然

似然和概率的联系与区别?来源链接:https://www.zhihu.com/question/54082000/answer/145495695

(1)区别

先看似然函数的定义,它是给定联合样本值\textbf{x}下关于(未知)参数\theta 的函数:L(\theta | \textbf{x}) = f(\textbf{x} | \theta)

这里的小\textbf{x}是指联合样本随机变量\textbf{X}取到的值,即\textbf{X} = \textbf{x}

这里的\theta是指未知参数,它属于参数空间;

这里的f(\textbf{x}|\theta)是一个密度函数,特别地,它表示(给定)\theta下关于联合样本值\textbf{x}的联合密度函数。

(2)联系

如果\textbf{X}是离散的随机向量,那么其概率密度函数f(\textbf{x} | \theta)可改写为f(\textbf{x} | \theta) = \mathbb{P}_\theta(\textbf{X} = \textbf{x}),即代表了在参数\theta下随机向量\textbf{X}取到值\textbf{x}可能性;并且,如果我们发现

L(\theta_1 | \textbf{x} ) = \mathbb{P}_{\theta_1}(\textbf{X} = \textbf{x}) > \mathbb{P}_{\theta_2}(\textbf{X} = \textbf{x}) = L(\theta_2 | \textbf{x})

那么似然函数就反应出这样一个朴素推测:在参数\theta_1下随机向量\textbf{X}取到值\textbf{x}可能性大于 在参数\theta_2下随机向量\textbf{X}取到值\textbf{x}可能性。换句话说,我们更有理由相信(相对于\theta_2来说)\theta_1

更有可能是真实值。这里的可能性由概率来刻画。

综上,概率(密度)表达给定\theta下样本随机向量\textbf{X} = \textbf{x}可能性,而似然表达了给定样本\textbf{X} = \textbf{x}下参数\theta_1(相对于另外的参数\theta_2)为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率

最后我们再回到L(\theta | \textbf{x}) = f(\textbf{x} | \theta)这个表达。首先我们严格记号,竖线|表示条件概率或者条件分布,分号;表示把参数隔开。所以这个式子的严格书写方式是L(\theta | \textbf{x}) = f(\textbf{x} ; \theta)因为\theta在右端只当作参数理解。

3.最大似然估计MLE(Maximum Likelihood Estimation)

适用情况:“模型已定,参数未知”。已有观察数据(样本);确定了模型(假设样本服均从于某种分布)及参数列表(分布函数的参数),需要对参数进行估计。

作用:在已知试验结果(样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数\small \Theta作为真实的参数估计

实质:最大化似然函数(数值同概率函数)求参数的估计值,使得在该参数下,概率取得最大值

求解过程:

  • a.选定模型/分布,列出参数列表。写出似然函数;
  • b. 根据模型/分布写出概率函数;对似然函数取对数;
  • c.对各个参数求导数或者选择其他方式优化参数;
  • d. 代入样本值,求解模型中各参数的最优值。

a.写似然函数(概率函数/概率密度)

(1)离散型

x为离散型随机变量,\small \Theta =(\Theta 1,\Theta 2,...,\Theta k)为多维参数向量,如果随机变量\small x1,x2,...,xn相互独立且概率计算式为\small P(Xi=xi)=P(xi;\Theta ),则可得概率函数为

                                                 

\small \Theta =(\Theta 1,\Theta 2,...,\Theta k)固定时,上式表示X1=x1,...,Xn=xn的概率;当X1=x1,...,Xn=xn已知的时候,它又变成\small \Theta =(\Theta 1,\Theta 2,...,\Theta k)的函数,可以把它记为

                                                                \small L(\Theta |X)=\prod _{i=1}^{n}P(Xi=xi;\Theta )

称此函数为似然函数。似然函数值的大小意味着该样本值出现的可能性的大小,既然已经得到了样本值X1=x1,...,Xn=xn,那么它出现的可能性应该是较大的,即似然函数的值也应该是比较大的,因而最大似然估计就是选择使\small L(\Theta |X)达到最大值的那个\small \Theta作为真实的估计。

(2)连续型

设x为连续型随机变量,其概率密度函数为\small f(xi;\Theta ),X1=x1,...,Xn=xn为从该总体中抽出的样本,同样的如果X1,...,Xn相互独立且同分布,于是样本的联合概率密度(似然函数)为

                                                                  \small L(\Theta |X)=\prod _{i=1}^{n}f(xi;\Theta )

大致过程同离散型一样。

注:也有部分文献中将\small P(Xi=xi;\Theta )  写成  \small P(Xi=xi|\Theta )\small f(xi;\Theta )写成\small f(xi|\Theta )

b. 如果无法直接求导的话,对似然函数取对数;

目标:

取对数化简:

\small lnL(\Theta |X)=lnP(X;\Theta)=ln\prod _{i=1}^{n}P(xi;\Theta )= \sum _{i=1}^{n}lnP(xi;\Theta )

根据确定的模型(X服从的分布函数)写出\small P(xi;\Theta )表达式

c.d对各个参数求导数并得最优值

法一:对各个参数求导并令导数为0,求得各参数最优值

\small \frac{\partial \sum _{i=1}^{n}lnP(xi;\Theta )}{\partial \Theta 1}=0

......................................

\small \frac{\partial \sum _{i=1}^{n}lnP(xi;\Theta )}{\partial \Theta k}=0

法二:使用梯度下降法迭代或者其他方法优化参数

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值