机器学习||贝叶斯详解

机器学习||贝叶斯

1.贝叶斯方法

假设有C个类别,记为 { w 1 , w 2 , . . . , w j , . . . w C } \{w_1,w_2,...,w_j,...w_C\} {w1,w2,...,wj,...wC},有样本 x x x。分类器的分类错误概率是指 x x x被分类成错误类的概率,用公式表达如下:
p ( e r r o r ∣ x ) = ∑ j p ( w j ∣ x ) , f o r   x ∈ w i , i ≠ j p(error|x)=\sum _jp(w_j|x), for\space x\in w_i,i\neq j p(errorx)=jp(wjx),for xwi,i=j所以对于 ∀ i , x ∈ w i \forall i,x\in w_i i,xwi
p ( c o r r e c t ∣ x ) = 1 − p ( e r r o r ∣ x ) = 1 − ∑ j , j ≠ i p ( w j ∣ x ) = p ( w i ∣ x ) p(correct|x)=1-p(error|x)=1-\sum _{j,j\neq i}p(w_j|x)=p(w_i|x) p(correctx)=1p(errorx)=1j,j=ip(wjx)=p(wix)分类错误概率应该尽可能小、分类正确概率尽可能大的原则出发,我们应该选择 p ( w i ∣ x ) p(w_i|x) p(wix)最大的类别 i i i作为判断类别。即:
c l a s s = arg max ⁡ i p ( w i ∣ x ) class=\mathop {\argmax_{i}} p(w_i|x) class=iargmaxp(wix)
进一步,根据贝叶斯公式,有
c l a s s = arg max ⁡ i p ( w i ∣ x ) = arg max ⁡ i p ( x ∣ w i ) p ( w i ) class=\mathop {\argmax_{i}} p(w_i|x)=\mathop {\argmax_{i}} p(x|w_i)p(w_i) class=iargmaxp(wix)=iargmaxp(xwi)p(wi)

2.朴素贝叶斯方法

在贝叶斯方法中,需要计算 p ( x ∣ w i ) = p ( x 1 , x 2 , . . . , x k , . . . , x d ∣ w i ) p(x|w_i)=p(x_1,x_2,...,x_k,...,x_d|w_i) p(xwi)=p(x1,x2,...,xk,...,xdwi),其中 x k x_k xk表示样本 x x x的第 k k k维特征,因此随着样本的 x x x的特征维度和每维特征的状态增加, p ( x ∣ w i ) p(x|w_i) p(xwi)的计算空间是呈指数增加的,计算量巨大,因此在朴素贝叶斯中,认为样本的每维特征是相互独立的,即
p ( x ∣ w i ) = ∏ k d p ( x k ∣ w i ) p(x|w_i)=\prod_k^d p(x_k|w_i) p(xwi)=kdp(xkwi)所以在朴素贝叶斯中,判别方式变为:
c l a s s = = arg max ⁡ i p ( x ∣ w i ) p ( w i ) = arg max ⁡ i ∏ k d p ( x k ∣ w i ) p ( w i ) class==\mathop {\argmax_{i}} p(x|w_i)p(w_i)=\mathop {\argmax_{i}} \prod_k^d p(x_k|w_i)p(w_i) class==iargmaxp(xwi)p(wi)=iargmaxkdp(xkwi)p(wi)

3.拉普拉斯平滑

在前面的讨论中,需要用到各个状态组合的概率,然而训练集中有可能没有这些组合,导致统计出对应的概率为零,影响分类性能,因此,提出拉普拉斯平滑,缓减该因素带来的负面影响。

  • 条件概率 p ( x k ∣ w i ) p(x_k|w_i) p(xkwi)
    p ( x k ∣ w i ) = ∑ i = 1 N I ( x k i = a j l , y i = w i ) + γ ∑ i = 1 N I ( y i = w i ) + L k ∗ γ p(x_k|w_i)=\frac{\sum_{i=1}^NI(x_k^i=a_{jl},y^i=w_i)+\gamma}{\sum_{i=1}^NI(y^i=w_i)+L_k*\gamma} p(xkwi)=i=1NI(yi=wi)+Lkγi=1NI(xki=ajl,yi=wi)+γ其中 γ ⩾ 0 \gamma\geqslant 0 γ0 L k L_k Lk是指第 k k k维特征的状态数。
  • 先验概率 p ( w i ) p(w_i) p(wi)
    p ( w i ) = ∑ i = 1 N I ( y i = w i ) + γ N + C ∗ γ p(w_i)=\frac{\sum_{i=1}^NI(y^i=w_i)+\gamma}{N+C*\gamma} p(wi)=N+Cγi=1NI(yi=wi)+γ I I I是示性函数,即
    I ( x = y ) = { 1 , x = y 0 , x ≠ y I(x=y)=\left\{ \begin{matrix} 1 ,& x=y\\ 0,& x\neq y \end{matrix}\right. I(x=y)={1,0,x=yx=y
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值