《统计学习方法》第四章

4.1 朴素贝叶斯

        朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法,求出后验概率最大的输出y,y就是一个类别标签(常用贝叶斯做一个分类器)

4.1.1 基本方法

        了解贝叶斯关键就是了解公式上每一步都是代表着什么含义

        设输入空间X\subseteq R^{n},输出空间为类标记集合y=\left \{ c_{1},c_{2},c_{3},......,c_{n} \right \}y \subseteq Y,两个空间都是随机变量,且独立同分布。求P(Y|X)

        于是我们可以根据训练集得出联合概率分布P(X,Y),以及:

        先验概率分布:

P(Y=c_{k})

        条件概率分布:

P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},......,X^{(n)}=x^{(x)}|Y=c_{k})

        因为朴素贝叶斯是作了条件独立性假设的,也就是上式的条件概率分布可以拆分为:

P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)}|Y=c_{k})...P(X^{(n)}=x^{(n)}|Y=c_{k})

=\prod ^{(n)}_{j=1}P(X=x^{(j)})|Y=c_{k})

        在看一下贝叶斯的公式,差一个分母:

P(Y=c_{k}|X=x)=\frac{P(Y=c{k})*P(X=x|Y=c_{k})}{P(X=x)}

        (我不知道这样理解对不对,如果错了,请指正指正)分母我把它理解为一个边缘概率分布(借鉴连续性随机变量)这里的分母就是表达,不管我当前Y取那一类,我只管输入数据X的分布,所以,我们可以将分母拆成多个联合分布:

P(X)=P(Y=c_{1},X)+P(Y=c_{2},X)+...+P(Y=c_{n},X)

        然后,我们根据条件概率的公式去求右式的每一项,因为我们可以根据训练集收集到计算需要的信息:(取其中一项)

P(Y=c_{k},X)=P(X|Y=c_{k})*P(Y=c_{k})        

        于是我们整个贝叶斯公式可以更改为:

P(Y=c_{k}|X=x)=\frac {P(Y=c_{k})*P(X=x|Y=c_{k})} {\sum_{j=1}^{j}P(X=x|Y=c_{k})*P(Y=c_{k})}

        因为朴素贝叶斯的输入空间各个随机变量都是独立的,于是我们可以继续改:

P(X=Y=c_{k}|X=x)=\frac{P(Y=c_{k})*\prod _{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}{\sum _{k}P(Y=c_{k})*\prod _{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}

        上式就是朴素贝叶斯分类器,我们再往最外层套一个求最大值,并且我们发现,无论输出神标签,分母都是一个固定值,于是我们求最大值就等同于求分母的最大值,所以朴素贝叶斯分类器最后可以表示为:

y=argmax_{c_{k}}P(Y=c_{k})*\prod _{j}P(X^{(j)}=x^{(j)}|Y=c_{k})

        接下来,我们要分析为什么要取最大值:

        详细介绍请看:解释为什么求最大值以及我们最后得到一个结论,求后验概率最大化等同于求期望风险最小化

4.2.1 朴素贝叶斯法的参数估计(极大似然估计)     

        得到了贝叶斯朴素分类器后,我们就进行计算了

        第一项可以表示为:

P(Y=c_{k})=\frac {\sum^{N}_{i=1}I(y_{i}=c_{k})}{N} 其中N是所有样本总数

        设第j个特征x^{(j)} 可能取值的集合为\left \{ a_{j1},a_{j2},.....,a_{jS_{j}} \right \},其中表示第Sj个特征的值,第二项可以表示为:

P(X^{(j)}=a_{jl}|Y=c_{k)})=\frac{\sum^{N}_{i=1}I(x^{(j)}_i=a_{jl},y_{i}=c_{k})}{\sum^{N}_{i=1}I(y_{i}=c_{k})}

        其中:j=1...n;   L=1...Sj;   k=1...K

4.2.2 贝叶斯估计

        如果我们直接用极大似然估计可能会出现要估计的概率为0的情况,这会导致最终的结果等于0,所以我们引入\lambda=1 拉普拉斯平滑取解决这个问题,从而形成贝叶斯估计:

        对应的条件概率的贝叶斯估计:

P(X^{(j)}=a_{jl}|Y=c_{k)})=\frac{\sum^{N}_{i=1}I(x^{(j)}_i=a_{jl},y_{i}=c_{k})+\lambda}{\sum^{N}_{i=1}I(y_{i}=c_{k})+s_{j}\lambda}

        先验概率的贝叶斯估计:

P(Y=c_{k})=\frac {\sum^{N}_{i=1}I(y_{i}=c_{k}+\lambda)}{N+K\lambda}

5.1 例子

        

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值