【机器学习】贝叶斯模型(Bayesian Model)

本文介绍了贝叶斯模型,包括最小错误率贝叶斯和最小风险贝叶斯,用于分类问题。讨论了先验概率和似然概率的概念,并通过癌症诊断和球类问题的例题展示了贝叶斯决策的过程。此外,还提到了极大似然估计、生成模型和判决模型的区别,以及朴素贝叶斯模型及其拉普拉斯平滑处理零频问题的方法。
摘要由CSDN通过智能技术生成

最小错误率贝叶斯

先验概率

  • 反映了我们的经验知识,是一种简单的判决准则

  • 只依靠先验概率并不靠谱,如:学校男女比例4:1,走过来的人是男生可能性大,但不能直接分类为男生

  • 需要更多的特征信息进一步进行分类

似然概率

  • 特征的类条件概率

在已知特征属于某个类的前提条件下的概率密度分布

二类判决问题

  • 假设已知:
  1. 两类的先验概率 p ( w 1 ) p(w_1) p(w1) p ( w 2 ) p(w_2) p(w2)

  2. 特征x的类条件概率密度: p ( x ∣ w 1 ) p(x|w_1) p(xw1) p ( x ∣ w 2 ) p(x|w_2) p(xw2)

  3. 当前待分类样本的观测值 x x x

  • 判断观测值 x x x属于 w 1 w_1 w1 w 2 w_2 w2的概率情况:

后验概率:通过特征判断
p ( w 1 ∣ x ) > p ( w 2 ∣ x ) → w = w 1 p ( w 2 ∣ x ) > p ( w 1 ∣ x ) → w = w 2 \begin{gathered}p(w_1|\bold{x})>p(w_2|\bold{x})\rightarrow w=w_1\\p(w_2|\bold{x})>p(w_1|\bold{x})\rightarrow w=w_2\end{gathered} p(w1x)>p(w2x)w=w1p(w2x)>p(w1x)w=w2

最小错误率贝叶斯公式

P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) = P ( x ∣ w i ) P ( w i ) ∑ i P ( x ∣ w i ) P ( w i ) P o s t e r i o r = L i k e l i h o o d × P r i o r E v i d e n c e \begin{gathered}P(w_i|\bold{x})=\frac{P(\bold{x}|w_i)P(w_i)}{P(\bold{x})}=\frac{P(\bold{x}|w_i)P(w_i)}{\sum_iP(\bold{x}|w_i)P(w_i)}\\\mathit{Posterior}=\frac{\mathit{Likelihood}\times{Prior}}{\mathit{Evidence}}\end{gathered} P(wix)=P(x)P(xwi)P(wi)=iP(xwi)P(wi)P(xwi)P(wi)Posterior=EvidenceLikelihood×Prior

  • Posterior: P ( w i ∣ x ) P(w_i|\bold{x}) P(wix)观测到的具有 x \bold{x} x属性的事例或样本,该样本属于 w i w_i wi的概率。

  • Likelihood: P ( x ∣ w i ) P(\bold{x}|w_i) P(xwi)似然值,即第 w i w_i wi类样本, x \bold{x} x属性或特征的分布情况。

  • Prior: P ( w i ) P(w_i) P(wi)先验概率。

  • Evidence:归一化因子,保证类别后验概率之和为1。

最大后验准则
w ∗ = a r g m a x P ( w i ∣ x ) \mathit{w^*}=argmax{P(w_i|\bold{x})} w=argmaxP(wix)
正比于贝叶斯公式的分子部分。

误差

P ( w 1 ∣ x ) + P ( w 2 ∣ x ) = 1 P(w_1|x)+P(w_2|x)=1 P(w1x)+P(w2x)=1

  • P ( e r r o r ∣ x ) = { P ( w 1 ∣ x ) , w = w 2 P ( w 2 ∣ x ) , w = w 1 P(error|x)= \begin{cases}P(w_1|x),w=w_2\\P(w_2|x),w=w_1\end{cases} P(errorx)={ P(w1x),w=w2P(w2x),w=w1

  • P ( e r r o r ) = ∫ − ∞ ∞ P ( e r r o r , x ) d x = ∫ − ∞ ∞ P ( e r r o r ∣ x ) p ( x ) d x P(error)=\int_{-\infty}^{\infty}P(error,x)dx=\int_{-\infty}^{\infty}P(error|x)p(x)dx P(error)=P(error,x)dx=P(errorx)p(x)dx

期望产生分类错误最小:

m i n P ( e r r o r ) = ∫ − ∞ ∞ m i n { P ( e r r o r ∣ x ) } p ( x ) d x minP(error)=\int_{-\infty}^{\infty}min\{P(error|x)\}p(x)dx minP(error)=min{ P(errorx)}p(x)dx

可以通过后验概率规则实现,即谁的后验概率大就分给谁:
p ( w 1 ∣ x ) > p ( w 2 ∣ x ) → w = w 1 p ( w 2 ∣ x ) > p ( w 1 ∣ x ) → w = w 2 \begin{gathered}p(w_1|\bold{x})>p(w_2|\bold{x})\rightarrow w=w_1\\p(w_2|\bold{x})>p(w_1|\bold{x})\rightarrow w=w_2\end{gathered} p(w1x)>p(w2x)w=w1p(w2x)>p(w1x)w=w2

例题

对癌症进行诊断,对一批人进行普查,规律如下:

  1. 每1000个人中有5个癌症病人

  2. 每100个正常人中有一个是试验呈阳性反应

  3. 每100个癌症病人中有95个人试验呈阳性反应

问:若甲呈阳性反应,甲是否正常?

分析:

  1. 第1告诉我们先验概率

  2. 2、3告诉我们似然概率:

设: w 1 → w_1\rightarrow w1正常; w 2 → w_2\rightarrow w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值