贝叶斯公式与极大似然估计

条件概率

在事件 A A A 发生的前提下,事件 B B B 发生的概率就叫做条件概率,表示为: P ( B ∣ A ) P(B|A) P(BA)。那么如何去计算这个条件概率?其实一般说到条件概率的时候,事件 A 、 B A、B AB 是有交集的,也就是说事件 A A A 和事件 B B B 有可能同时发生,它们同时发生的概率表示为: P ( A B ) P(AB) P(AB)。有了这个就可以计算条件概率了: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)由此式还能够推出概率的乘法公式 P ( A B ) = P ( B ∣ A ) ∗ P ( A ) = P ( A ∣ B ) ∗ P ( B ) P(AB)=P(B|A)*P(A)=P(A|B)*P(B) P(AB)=P(BA)P(A)=P(AB)P(B)将其推广至 n n n 维可以得到: P ( A 1 A 2 . . . A n ) = P ( A n ∣ A n − 1 . . . A 1 ) ∗ P ( A n − 1 ∣ A n − 2 . . . A 1 ) ∗ . . . ∗ P ( A 2 ∣ A 1 ) ∗ P ( A 1 ) P(A_1A_2...A_n)=P(A_n|A_{n-1}...A_1)*P(A_{n-1}|A_{n-2}...A_1)*...*P(A_2|A_1)*P(A_1) P(A1A2...An)=P(AnAn1...A1)P(An1An2...A1)...P(A2A1)P(A1)


全概率公式

如果在样本空间 Ω \Omega Ω 中,存在事件组 B 1 , B 2 , . . . B n B_1,B_2,...B_n B1,B2,...Bn 满足:

  • 对任意的 i ≠ j i\neq{j} i̸=j,都有 B i ⋂ B j ≠ ∅ B_i\bigcap{B_j}\neq{\varnothing} BiBj̸=,也就是说事件组两两互斥;
  • B 1 ⋃ B 2 ⋃ . . . ⋃ B n = Ω B_1\bigcup{B_2}\bigcup...\bigcup{B_n}=\Omega B1B2...Bn=Ω

则称事件组 B 1 , B 2 , . . . B n B_1,B_2,...B_n B1,B2,...Bn 是样本空间 Ω \Omega Ω 的一个划分。假设 A A A 为任意一个事件,则可以得到全概率公式 P ( A ) = ∑ i = 1 n P ( A B i ) = ∑ i = 1 n P ( A ∣ B i ) ∗ P ( B i ) P(A)=\sum_{i=1}^nP(AB_i)=\sum_{i=1}^nP(A|B_i)*P(B_i) P(A)=i=1nP(ABi)=i=1nP(ABi)P(Bi)


贝叶斯公式

贝叶斯公式其实就是在条件概率的基础上,将分子变成乘法公式的形式,将分母变成全概率公式的形式: P ( B i ∣ A ) = P ( A B ) P ( A ) = P ( A ∣ B i ) ∗ P ( B i ) ∑ j = 1 n P ( A ∣ B j ) ∗ P ( B j ) P(B_i|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B_i)*P(B_i)}{\sum_{j=1}^nP(A|B_j)*P(B_j)} P(BiA)=P(A)P(AB)=j=1nP(ABj)P(Bj)P(ABi)P(Bi)其中:

  1. P ( A ∣ B i ) P(A|B_i) P(ABi) 叫做类条件概率,表示在某种类别( B i B_i Bi)的前提下某事( A A A)发生的概率。
  2. P ( B i ) P(B_i) P(Bi) 就是先验概率,表示一个划分里面每种类别分布的概率,可以将 B i B_i Bi 看做是导致实验结果的原因, P ( B i ) P(B_i) P(Bi) 则给出了各种“原因”发生的可能性大小。
  3. 最终求解的是后验概率 P ( B i ∣ A ) P(B_i|A) P(BiA),表示已知某事( A A A)发生了,那么它属于某类原因( B i B_i Bi)的概率;后验概率越大,表明事件属于这个类别的可能性越大,就越有理由将它归入到这个类别下,它有助于探讨事件发生的“原因”,反映了试验之后对“原因”发生的可能性大小的新知识。

例题:
已知,在夏季某公园男性穿凉鞋的概率为 1 2 \frac{1}{2} 21,女性穿凉鞋的概率为 2 3 \frac{2}{3} 32,并且该公园中男女比例通常为 2 : 1 2:1 2:1
问题:若在公园中随机遇到一个穿凉鞋的人,请问 T a Ta Ta 的性别为男性或女性的概率分别为多少?

典型的计算后验概率:某事件发生了,它属于某一类别的概率为多少?假设:男性= B 1 B_1 B1,女性= B 2 B_2 B2,穿凉鞋= A A A,那么有: 类 条 件 概 率 : P ( A ∣ B 1 ) = 1 2 , P ( A ∣ B 2 ) = 2 3 类条件概率:P(A|B_1)=\frac{1}{2},P(A|B_2)=\frac{2}{3} :P(AB1)=21P(AB2)=32 先 验 概 率 : P ( B 1 ) = 2 3 , P ( B 2 ) = 1 3 先验概率:P(B_1)=\frac{2}{3},P(B_2)=\frac{1}{3} :P(B1)=32P(B2)=31根据以上信息计算穿凉鞋的概率,因为性别 B 1 、 B 2 B_1、B_2 B1B2 是互斥的,可以构成样本空间上的一个划分,所以: P ( A ) = P ( A ∣ B 1 ) ∗ P ( B 1 ) + P ( A ∣ B 2 ) ∗ P ( B 2 ) = 5 9 P(A)=P(A|B_1)*P(B_1)+P(A|B_2)*P(B_2)=\frac{5}{9} P(A)=P(AB1)P(B1)+P(AB2)P(B2)=95因此穿凉鞋且为男、女性的后验概率分别为: P ( B 1 ∣ A ) = P ( A ∣ B 1 ) ∗ P ( B 1 ) P ( A ) = 3 5 P(B_1|A)=\frac{P(A|B_1)*P(B_1)}{P(A)}=\frac{3}{5} P(B1A)=P(A)P(AB1)P(B1)=53 P ( B 2 ∣ A ) = P ( A ∣ B 2 ) ∗ P ( B 2 ) P ( A ) = 2 5 P(B_2|A)=\frac{P(A|B_2)*P(B_2)}{P(A)}=\frac{2}{5} P(B2A)=P(A)P(AB2)P(B2)=52


极大似然估计

先验概率一般通过训练样本中各类出现的频率来计算;类条件概率的计算比较困难,一般的解决方法是参数估计,极大似然估计就是其中一种。具体来说,就是先选取一个概率密度函数模型,然后输入大量的样本,不断调整参数使得样本出现的概率最大。所以,极大似然估计是一种可以用来计算类条件概率的方法,当然它的作用绝不仅仅局限于计算类条件概率,很多参数估计问题都能用到。
假设有一系列的数据满足一定的分布(比如正态分布、均匀分布等),你事先是不知道它服从哪种分布的,现在要你给出一个模型来准确描述这个分布。所以最开始你需要选择一个合适的函数模型(双曲线 o r or or三角函数 o r . . . or... or...),把这个称为似然函数,表示为 f ( x 1 , x 2 , . . . x n ∣ θ ) f(x_1,x_2,...x_n|\theta) f(x1,x2,...xnθ) θ \theta θ表示模型中的参数, x i x_i xi 表示样本数据。现在就需要通过已知的数据去确定参数 θ \theta θ,让函数取得最大值。那么如何去确定呢?极大似然估计采取的做法是:

  1. 先对似然函数取对数 l n ln ln,然后整理形式;
  2. 求导数,让导数为0,得到似然方程(组);
  3. 求解似然方程(组)

例题:
设样本服从正态分布, X − N ( μ , σ 2 ) X-N(\mu,\sigma^2) XN(μ,σ2),似然函数为: L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ e − ( x i − μ ) 2 2 σ 2 = ( 2 π σ 2 ) − n 2 e − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 L(\mu,\sigma^2)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2} L(μ,σ2)=i=1n2π σ1e2σ2(xiμ)2=(2πσ2)2ne2σ21i=1n(xiμ)2 μ 、 σ 2 \mu、\sigma^2 μσ2 的极大似然估计。

首先对似然函数取对数, l n L ( μ , σ 2 ) = − n 2 ∗ l n ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 lnL(\mu,\sigma^2)=-\frac{n}{2}*ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 lnL(μ,σ2)=2nln(2πσ2)2σ21i=1n(xiμ)2然后求偏导,得到方程组, { ∂ l n L ( μ , σ 2 ) μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ∂ l n L ( μ , σ 2 ) σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 \begin{cases}\frac{\partial{lnL(\mu,\sigma^2)}}{\mu}=\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0 \\\frac{\partial{lnL(\mu,\sigma^2)}}{\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2=0 \end{cases} {μlnL(μ,σ2)=σ21i=1n(xiμ)=0σ2lnL(μ,σ2)=2σ2n+2σ41i=1n(xiμ)2=0求解方程组得到, { μ ∗ = 1 n ∑ i = 1 n x i σ ∗ 2 = 1 n ∑ i = 1 n ( x i − μ ∗ ) 2 \begin{cases}\mu^*=\frac{1}{n}\sum_{i=1}^nx_i\\\sigma^{*2}=\frac{1}{n}\sum_{i=1}^n(x_i-\mu^*)^2 \end{cases} {μ=n1i=1nxiσ2=n1i=1n(xiμ)2最后得到的 μ ∗ 、 σ ∗ 2 \mu^*、\sigma^{*2} μσ2 就是参数 μ 、 σ 2 \mu、\sigma^2 μσ2 的极大似然估计。实际上这里省略了关键一步——模型的选择,我们这里由题目直接给出,而在实际应用中往往不是那么轻易能够确定数据分布的模型函数的,只能依靠经验去选择比较合适的那个。确定了参数之后,我们就可以用上面数学模型较为准确地描述该数据的分布了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值