朴素贝叶斯分类器学习笔记

一、贝叶斯决策论

1、假设有N种可能的类别标记,y=\left \{ c_{1},c_{2},...,c_{N} \right \}\lambda _{ij}是将一个真实标记为c_{j}的样本误分类为c_{i}所产生的损失,后验概率p(c_{i}\mid x)可获得将样本x分类为c_{i}所产生的期望损失。

(1) 样本在x上的条件风险为:

                                R(c_{i}\mid x)=\sum_{i=1}^{N}\lambda _{ij}p(c_{j}\mid x)

(2) 样本的总体风险为:

                              R(h)=E_{x}[R(h(x)\mid x)]

2、根据贝叶斯判定准则,我们需要最小化总体风险,因此需要最小化条件风险:

                               h^{*}(x)=argmin\,\,\,R(c\mid x)

(1)前面提及的误分类损失可写为:

                              \lambda _{ij}=\left\{\begin{matrix} 0 \,\,\,\,\,\,if\,\,i=j& & \\ 1\,\,\,otherwise& & \end{matrix}\right.

(2)此时的条件风险为:

                              R(c\mid x)=1-p(c\mid x)

(3)由于需要最小条件风险,故需对p(c_{i}\mid x)取最大:

                              h^{*}(x)=argmax\,\,\,p(c\mid x)

 公式(3)为贝叶斯最优分类器

二、朴素贝叶斯分类器

1、基于朴素贝叶斯公式为:

                            p(c\mid x)=\frac{p(c)p(x\mid c)}{p(x)}

2、基于属性条件独立性假设,上式可重写为:

                     p(c\mid x)=\frac{p(c)p(x\mid c)}{p(x)}=\frac{p(c)}{p(x)}\prod_{i=1}^{d}p(x_{i}\mid c)

c代表类别,x代表特征

3、综上贝叶斯表达式的公式为:

                         h_{nb}=argmax\,\,\,p(c)\prod_{i=1}^{d}p(c_{i}\mid x)

朴素贝叶斯分类器的训练过程是基于训练集D来估计先验概率p(c),并为每个属性估计条件概率p(c_{i}\mid x)

1) 先验概率为: p(c)

2) 条件概率分两种情况,一种是离散型属性的条件概率,另一种是连续型属性的条件概率,具体如下:

A、对于离散型条件概率:

                         p(x_{i}\mid c)=\frac{\left | D_{c,x_{i}} \right |}{D}

B、对于连续型条件概率:

                    p(x_{i}\mid c)=\frac{1}{\sqrt{2\pi }\sigma _{c,i}}exp(-\frac{(x_{i}-\mu _{c,i})^{2}}{2\sigma ^{2}_{c,i}})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值