机器学习(一)贝叶斯判别式

机器学习(一)贝叶斯判别式

2018/2/13
by Chenjing Ding


符号含义
Ck C k 第k类
p概率密度
P(Ck) P ( C k ) 第k类的概率。本文中的概率密度和概率在公式推导时已严格区分
x输入数据;可为训练样本(已知类别)或者待分类数据(未知类别),为变量
q q 输入数据,有固定取值,非变量
m 类型总数

一.三个基本概率

1.1先验概率

根据经验得到的概率。比如P(Ck):第k类的先验概率

1.2条件概率

Px|Ck P ( x | C k ) : 在第k类中产生观察到的数据x的概率,表示了x是由第k类产生的可能性。

1.3后验概率

PCk|x P ( C k | x ) :输入数据x是第k类的概率。

1.4 三者关系

p(x,Ck)=p(x|Ck)P(Ck)=P(Ck|x)p(x) p ( x , C k ) = p ( x | C k ) ∗ P ( C k ) = P ( C k | x ) p ( x )

其中x是连续随机变量,注意 P(x)=0 P ( x ) = 0 ;表达式中采用的是概率密度函数。
C C 是离散随机变量,表达式中采用的是概率。

-具体参考Christopher M. Bishop,Pattern Recognition and Machine Learning,Springer, 2006 1.2.1节。
-在第二节4.3生成模型和判别模型的比较中再来比较条件概率和后验概率。

二.贝叶斯判别式最佳决策准测的推导

目标函数:
使错分输入数据x的概率最小。
 图1 贝叶斯判别式最小化错分概率

1

已知决策准测 x0 x 0 , 当 x<x0 x < x 0 ,即 xR1 x ∈ R 1 ,贝叶斯决策认为x属于 C1 C 1 类,反之则为$C_2类。

Pmistake=PxR1,C2+P(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx=R1P(C2|x)p(x)dx+R2P(C1|x)p(x)dx P ( m i s t a k e ) = P ( x ∈ R 1 , C 2 ) + P ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x = ∫ R 1 P ( C 2 | x ) ∗ p ( x ) d x + ∫ R 2 P ( C 1 | x ) ∗ p ( x ) d x

观察上图,当决策准则为 xˆ x ^ ,P(mistake)是红色,绿色和蓝色的面积和。当决策准则为 x0 x 0 ,P(mistake)是绿色和蓝色的面积和。要使P(mistake)的概率最小,应使红色面积部分最小。当 px,C1=p(x,C2) p ( x , C 1 ) = p ( x , C 2 ) 时,红色部分面积为0;即分界线为 {x| p(x,C1)=p(x,C2)} { x |   p ( x , C 1 ) = p ( x , C 2 ) }

最佳决策准测:
根据上述分界线,当 P(C1|x)p(x)>P(C2|x)p(x) P ( C 1 | x ) ∗ p ( x ) > P ( C 2 | x ) ∗ p ( x ) ,贝叶斯决策将x分为 C1 C 1 类;
即: p(x|C1)P(C1)>p(x|C2)P(C2) p ( x | C 1 ) ∗ P ( C 1 ) > p ( x | C 2 ) ∗ P ( C 2 )

p(x|C1)p(x|C2)>P(C2)P(C1) p ( x | C 1 ) p ( x | C 2 ) > P ( C 2 ) P ( C 1 )
其中 P(C2)P(C1) P ( C 2 ) P ( C 1 ) 称为决策阈值

三.损失函数在贝叶斯判别式中的的应用

3.1贝叶斯决策损失函数的定义

Lkj0<k,j<=m L k j ( 0 < k , j <= m ) : 如果x被分类到第j类,而其实x是第k类的损失值。损失矩阵就是由这些损失值构成的矩阵。

3.2带损失函数的最佳决策准测

3.2.1 损失函数的期望

条件损失函数期望:
R(aj|q): R ( a j | q ) : 对于一个特定的q输入,采取决策 aj a j 的损失期望,也叫做条件风险。

R(aj|q)=k=1mLkjP(Ck|q) R ( a j | q ) = ∑ k = 1 m L k j P ( C k | q )

损失期望:
R:对于所有决策总的损失期望。

R=k=1mj=1mRjLkjp(x,Ck)dx =j=1mRj[k=1mLkjP(Ck|x)]p(x)dx=j=1mRjR(aj|x)p(x)dx=E(R(aj|q)) R = ∑ k = 1 m ∑ j = 1 m ∫ R j L k j p ( x , C k ) d x   = ∑ j = 1 m ∫ R j [ ∑ k = 1 m L k j P ( C k | x ) ] p ( x ) d x = ∑ j = 1 m ∫ R j R ( a j | x ) p ( x ) d x = E ( R ( a j | q ) )

3.2.2 目标函数

对于给定输入q,选择条件风险最小的决策,可使总的损失期望最小。
以两类为例:
假设有两个类 C1,C2 C 1 , C 2 ,有两个决策 a1a2 a 1 , a 2 。损失函数 L(aj|Ck)=Lkj L ( a j | C k ) = L k j

R(a1|x)=L11P(C1|x)+L21P(C2|x)R(a2|x)=L12P(C1|x)+L22P(C2|x) R ( a 1 | x ) = L 11 ∗ P ( C 1 | x ) + L 21 P ( C 2 | x ) R ( a 2 | x ) = L 12 ∗ P ( C 1 | x ) + L 22 P ( C 2 | x )

如果 R(a2|x)>R(a1|x) R ( a 2 | x ) > R ( a 1 | x ) ,选择a1。

L12P(C1|x)+L22P(C2|x)>L11P(C1|x)+L21P(C2|x)L12L11L21L22>P(C2|x)P(C1|x)=p(x|C2)P(C2)p(x|C1)P(C1)p(x|C1)p(x|C2)>P(C2)(L21L22)P(C1)(L12L11) L 12 ∗ P ( C 1 | x ) + L 22 P ( C 2 | x ) > L 11 ∗ P ( C 1 | x ) + L 21 P ( C 2 | x ) L 12 − L 11 L 21 − L 22 > P ( C 2 | x ) P ( C 1 | x ) = p ( x | C 2 ) P ( C 2 ) p ( x | C 1 ) P ( C 1 ) p ( x | C 1 ) p ( x | C 2 ) > P ( C 2 ) ( L 21 − L 22 ) P ( C 1 ) ( L 12 − L 11 )
上式即为考虑损失函数的贝叶斯最佳决策准则。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值