朴素贝叶斯原理及其应用实现

本文介绍了机器学习中的贝叶斯定理及其在文本分类中的应用,特别是朴素贝叶斯算法。通过讲解如何计算后验概率来决定文本分类,以及在实际案例中如何处理文本数据,展示了如何利用独立特征假设简化计算。此外,还讨论了在计算过程中引入对数的优化策略,以避免小数累乘导致的数值问题。
摘要由CSDN通过智能技术生成

先前在恶补机器学习算法的原理及实现,在此做一些总结记录。

首先是贝叶斯法则:

                          p(B|A) = \frac{P(A | B)P(B)}{P(A)} = \frac{P(B\cap A)}{P(A)}

其中,p(B)为先验概率,而p(B | A)表示为在事件A发生的情况下事件B发生的概率;在贝叶斯分类中,在得知后验概率p(B | A)(表示在某事件发生了,并且它属于哪个分类)的情况下,就可以对样本进行分类,后验概率越大则其为该分类的可能性越大。

而朴素贝叶斯则是一种强假设,假设每一种的特征中都是相互独立的,每一种特征同等重要;例如在垃圾邮件分类中,每一个词的出现的可能性与它周边相邻的词没有关系(这是一种强假设,实际上每一个词出现与上一个词是有联系的,只是在此强调相互独立)。

文本分类案例分析:

假设有m个文本集合D(d_{1},..,d_{m}),每个文档属于n个分类(C_{_{1}},C_{2},...,C_{n}),给定一篇文档d,文档最有可能是属于哪个分类呢?可以用以下公式表示:

                        c = argmaxP(c_{i} | d) = argmax\frac{p(d | c_{i})p(c_{i})}{p(d)} , c_{i}\in {c_{1},...,c_{n}}

其中,c表示文档所属分类(即(C_{_{1}},C_{2},...,C_{n})中的一个),而argmax表示取概率最大的,而在计算最大的概率时,由于分母p(d)都是不变的,则计算argmax P(d|c_{i})P(c_{i})即可,式中P(d | c_{i})称为似然函数,而P(c_{i})称为先验概率。

假设文档d中由kword组成,则文档中由这kword组成的特征为\left \{ {f_{1},...,f_{k}} \right \},其中f表示word在文档中出现的次数,则由上式可以表示为:

                    c = argmaxP(f_{1},...,f_{k} | c_{i})P(c_{i})

并且每一个特征都是独立的,因此P(f_{1},...,f_{k} | c_{i}) = P(f_{1} | c_{i})*...*P(f_{k} | c_{i}),所以上式可以表示为:

                   c = argmax P(c_{i})\prod P(f | c_{i})

在引入对数函数log以后(引入对数主要是为了更直观的看出结果,并且可以避免小数累乘以后结果underflow),则上式可以表示为

                  c = argmax(logP(c_{i}) + \sum logP(f | c_{i}))

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值