机器学习之朴素贝叶斯(附垃圾邮件分类)

本文介绍了朴素贝叶斯分类器的工作原理,并通过一个垃圾邮件分类的实现来展示其应用。朴素贝叶斯基于贝叶斯定理,即使在高维数据中也能表现出色。在垃圾邮件分类案例中,使用Python的scikit-learn库构建的分类器达到了98.2%的准确性。
摘要由CSDN通过智能技术生成

朴素贝叶斯分类器介绍概述

 朴素贝叶斯分类器技术基于贝叶斯定理,特别适用于输入维数较高的情况。尽管朴素贝叶斯方法简单,但它通常比更复杂的分类方法更胜一筹。

                                                                    

 为了演示朴素贝叶斯分类的概念,请考虑上面插图中显示的示例。如前所述,这些物体可以分为绿色或红色。我们的任务是对新事件进行分类,即根据当前对象,判定它们属于哪个类标签。

由于绿色样本的数量是红色样本的两倍,因此我们就可以知道,一个新实例(尚未观察到)是绿色的可能性是2倍红色的可能性。在贝叶斯分析中,这种概率预测被称为先验概率。先验概率是基于之前的经验,在这种情况下,绿色和红色物体的百分比,通常用于实际发生之前的预测。

因此我们可以写:

P(green)=\frac{greenNumber}{totalNumber}

P(red)=\frac{redNumber}{totalNumber}

因为总共有60个对象,其中40个是绿色的,20个是红色的,所以类成员的先验概率是

在阐述了我们的先验概率之后,我们现在可以对一个新对象(白圈)进行分类了。由于对象是很好地聚集在一起的,因此可以合理地假设X附近的绿色(或红色)对象越多,新的情况就越有可能属于那个特定的颜色。为了度量这种可能性,我们在X周围画一个圆,它包含一个点的数字(要预先选择),而不考虑它们的类标签。然后我们计算属于每个类标签的圆中的点数。由此我们计算了可能性:

  • 7
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值