使用朴素贝叶斯对垃圾邮件分类_朴素贝叶斯分类

6cc373525f2f1366542f8527baf84b69.png
在机器学习中, 朴素贝叶斯(Naive Bayes)是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单 概率分类器。朴素贝叶斯自20世纪50年代已广泛研究。在20世纪60年代初就以另外一个名称引入到文本信息检索界中,并仍然是 文本分类的一种热门(基准)方法,文本分类是以词频为特征判断文件所属类别或其他(如垃圾邮件、合法性、体育或政治等等)的问题。通过适当的预处理,它可以与这个领域更先进的方法(包括支持向量机)相竞争。它在自动医疗诊断中也有应用。参考 wikipedia
朴素贝叶斯分类器​zh.wikipedia.org

贝叶斯定理

要理解贝叶斯定理其实比较简单,实际上就是常说的”条件概率“,所谓条件概率,就是假定事件A发生的基础上,事件B发生的概率,用

来表示,叫做”
给定A时,B的概率“。

980b2e89bbef237b676ba5aba841b0da.png

考虑样本空间

中有2个事件A和B,其中
相交的部分为
,这里可以很容易计算出贝叶斯公式

一般的,这里
叫做
似然概率,
叫做
先验概率
是1个归一化系数,跟我们要计算的”给定
的概率“中的
(即我们主要关注的点)是无关的

朴素贝叶斯公式推导

Step 1. 实际情况中我们遇到的问题一般是,给定1个数据样本,根据朴素贝叶斯对之做出分类,即

”给定数据样本
,分类为
的概率“,根据贝叶斯公式有

Step 2. 这里

要转化成跟
相关的话就可以这样做,即

Step 3. 所以这里朴素贝叶斯公式可以转化成如下(

个分类)

Step 4. 重点来了,这里的

是1个n维的数据
,这里讨论的是朴素贝叶斯,之所以称为朴素,就是这里有1个前提:
中的每个维度都是
相互独立的( 虽然现实生活中往往并不是这样,但是即便是我们假定的有一些偏差,但是还是可以解决很多问题,也说明了朴素贝叶斯的强大),所以这里我们主要专注研究

Step 5. 最后就可以整理成

为主要关注的点,与
正相关,下面通过处理实际问题的例子具体感受一下朴素贝叶斯的神奇

”是否要去看电影“问题

比如说我喜欢去看电影,但是电影并不是想看就随时能看的,所以这里就要通过一些信息来做判断,判断我”是否要去看电影“

这里有我近10次看电影的记录,大概总结起来主要有4个维度来影响我是否要去看电影,分别是:是否周末,天气好坏,地点远近,电影评分的高低,然后现在的情况是:是周末,天气坏,地点远,评分高的电影,但是我现在不想权衡到底是看还是不看,这时候朴素贝叶斯就能很好的解决我的问题。

18a3610fff09d4c288824a0f137a82af.png
是否看电影的历史行为,对今天(橙色行)做决策”看“ or ”不看“

根据朴素贝叶斯公式,这里写的通俗一些,其实就是数数,比如

就是在所有样本中”
“占的比例,
就是在看的5天中有3天是周末,所以概率就为

这里有2点需要说明注意一下:

A. 注意到每个公式的第一个”等于号“实际上不是 “

“,而是”
“,这里代表
正相关,因为这里并不是严格的等于概率的,还需要加上
这个归一化系数,可以直接比较他们的大小,因为分母是不变的嘛,但是并不代表计算的是概率,实际上做归一化之后就是所求概率了即

反之

B. 注意到

不看电影的时候,是周末“,这种情况在我们样本中并没有发生所以概率就是0,但是如果其中之一为0,概率连乘之后会导致整个计算结果也为0,所以这里需要做一个 平滑,这种用1个很小的数代替0的办法一般叫做 拉普拉斯平滑,通常有2种方法。
  1. 指定一个很小的数字比如
  2. 在”垃圾邮件分类器“的时候也可能会”分子+1“和”分母+总词数“这种办法,但是思想是一样的

朴素贝叶斯的特点

优点:

A. 算法简单,可解释性强

B. 分类效率较高,只是进行普通的数字运算

缺点:

A. 由于”朴素“的强假设,分类的准确率会有所牺牲,比如在做”垃圾邮件分类“的时候,我们知道,一封邮件中的词不是相互独立的,比如说”我想喝xxx“,这里xxx大概率是一种饮品,而不是”电脑“, ”手机“等其他词汇,这时就可能会导致分类错误的情况。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值