深入理解贝叶斯模型

目录

贝叶斯模型理论基础

以文本分类为例

注意问题


贝叶斯模型理论基础

条件概率公式,已知A发生时B发生的概率: P(B|A) = \frac {P(AB)}{P(A)}

它的实质是:在给定条件下某事件发生的可能性

 

贝叶斯公式:P(A|B) = \frac {P(B|A)P(A)}{P(B)}

它的实质是:已知某事件发生,推导其条件的概率

 

在分类场景下,对贝叶斯公式进行扩展:P(c_{i}|x_{1}x_{2}...x_{n}) = \frac {P(x_{1}x_{2}...x_{n}|c_{i})P(c_{i})}{P(x_{1}x_{2}...x_{n})}

c_{i} 是第i个类别, x_{1}, x_{2}, ..., x_{n} 为某样本的n个特征,对于给定的样本来说P(x_{1}x_{2}...x_{n})是一给定值

那么P(c_{i}|x_{1}x_{2}...x_{n}) = \frac {P(x_{1}x_{2}...x_{n}|c_{i})P(c_{i})}{P(x_{1}x_{2}...x_{n})}  正比于   P(x_{1}x_{2}...x_{n}|c_{i})P(c_{i})

所以只要求得P(x_{1}x_{2}...x_{n}|c_{i})P(c_{i})的最大值就可以判断出它属于哪个类别

假设各特征间独立,那么有 P(x_{1}x_{2}...x_{n}|c_{i})P(c_{i}) = \prod_{i=1}^{n} P(x_{1}|c_{i})P(x_{2}|c_{i})...P(x_{i}|c_{i})P(c_{i})

为了方便计算对两边取对数有 logP(x_{1}x_{2}...x_{n}|c_{i})P(c_{i}) = log P(x_{1}|c_{i}) + logP(x_{2}|c_{i})... + logP(x_{i}|c_{i}) + logP(c_{i})

综上有P(c_{i}|x_{1}x_{2}...x_{n}) = max(log P(x_{1}|c_{i}) + logP(x_{2}|c_{i})... + logP(x_{i}|c_{i}) + logP(c_{i}))

以文本分类为例

假设提供的学习数据中有n个分类,每个分类下有m个样本,那么第i个类别P(c_{i}) = \frac{m_{i}}{\sum_{i=1}^{n}(m1 + m2 +... + m_{n})}

假设每个分类都有n个特征,在已知类别i下有 P(x_{i}|c_{i}) = \frac{x}{y}, x表示特征i的总数量,y表示分类i下所有的特征总和

当对模型进行训练时,实际上就是求上述的值,在预测给定的文本时,对文本按给定的规则抽取特征,然后在各个分类下计算在各分类下计算其值,在哪个分类下概率值最大,那么该文本就属于该类

注意问题

在实际中,对于分类的每个特征有可能在某个分类是不存在,但不存在不能说该特征就一定不会在该类别下不出现,这就要对

该情况进行平滑处理

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值