朴素贝叶斯算法(NB) 概率图模型(1)


概率图模型分为 贝叶斯网络(Bayesian Network)和 马尔可夫网络(Markov
Network)两大类。
贝叶斯网络可以用一个 有向图结构表示,如 朴素贝叶斯模型、隐马尔可夫模型、主题模型。
马尔可夫网络可以表示成一个 无向图的网络结构,如 最大熵模型、条件随机场。

朴素贝叶斯网络的图表示

概率图中,每个节点的概率可以表示为: P(当前节点|它的父节点) ,写出联合概率分布:如图中所示:

在这里插入图片描述

条件独立性

在这里插入图片描述

朴素贝叶斯算法

给定数据样本 x 时 , 其数据类别为 y j yj yj的概率:即 后验概率 P ( y j ∣ x ) P(y_j|x) P(yjx), 它反映了在看到数据样本x后yj成立的置信度

在这里插入图片描述总结:从上面的公式看出,在数据样本x的条件下,判定某样本为 y j y_j yj 类只取决于各个类条件概率的 p ( x i ∣ y j ) p(x_i|y_j) p(xiyj)的乘积和 p ( y j ) p(y_j) p(yj)的乘积。

极大似然估计与贝叶斯估计的朴素贝叶斯概率估计公式
  1. 在上面的朴素贝叶斯算法中,要计算后验概率需要计算极大似然概率 P ( Y = c k ) P(Y=c_k) P(Y=ck) P ( X j = c k ∣ Y = c k ) P(X_j = c_k| Y=c_k) P(Xj=ckY=ck),可以使用极大似然估计来求这两个概率(其实就是统计)。
  2. 贝叶斯估计是极大似然估计的优化,是为了解决某些类别频数为0时带来的 P ( Y = c k ) P(Y=c_k) P(Y=ck) P ( X j = c k ∣ Y = c k ) P(X_j = c_k| Y=c_k) P(Xj=ckY=ck)为零的情况,因此引入了拉普拉斯平滑。

P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + ∣ C ∣ λ P(Y=c_k) = \frac{\sum_{i=1}^{N} I(y_i=c_k)+\lambda}{N+ |C|\lambda} P(Y=ck)=N+Cλi=1NI(yi=ck)+λ

P ( X j = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + ∣ V ∣ λ P(Xj=a_{jl} |Y=c_k) = \frac{\sum_{i=1}^{N} I(x_i=a_{jl}, y_i=c_k)+\lambda}{\sum_{i=1}^{N} I(y_i=c_k)+ |V|\lambda} P(Xj=ajlY=ck)=i=1NI(yi=ck)+Vλi=1NI(xi=ajl,yi=ck)+λ

优缺点

优点:简单,对一些短文本的分类效果不错。
缺点:条件独立性假设很强,再多数场景下分类精确度不高。

损失

与KNN算法一样,朴素贝叶斯算法的后验概率最大等价于最小化 0-1 损失的经验风险。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值