【机器学习基础】朴素贝叶斯进行垃圾邮件分类

本文介绍了朴素贝叶斯分类的基础,包括贝叶斯决策理论,然后详细阐述如何使用朴素贝叶斯进行垃圾邮件的分类,涉及数据集构造、词典建立、词集模型、概率计算以及交叉验证等步骤。最后,提供了整体代码实现的概述。
摘要由CSDN通过智能技术生成

目录

    一 朴素贝叶斯简介

    二 贝叶斯决策理论

    三 朴素贝叶斯进行垃圾邮件分类

    3.1构造数据集

    3.2 构造词典

    3.3 构造词集模型

    3.4 求解先验概率和条件概率

    3.5 对样本集进行分类

    3.6 交叉验证

    四 整体代码实现

    五 参考材料


    一 朴素贝叶斯简介

    贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯是贝叶斯决策理论的一部分,所以本文首先介绍贝叶斯决策理论,然后我们通过实例来介绍最简单的一种贝叶斯分类:朴素贝叶斯。

 

    二 贝叶斯决策理论

    首先是条件概率公式:

                                                

 

    如上图所示,P(A|B) 表示已知事件B发生的前提下,事件A发生的概率,用上图来说,就是AB交界那部分的面积与B的面积的比例,所以 ,同理 ,再整合全概率公式就可以得到贝叶斯公式了,全概率公式如下:

                                                

这里的事件组A需要满足一定的条件:

  1. 两 两两互斥
  2. ,则称事件组A是空间Ω的一个划分

那么贝叶斯公式如下:

                                                

其中 为后验概率, 为先验概率, 为条件概率。

贝叶斯决策就是利用贝叶斯理论进行决策分类,举个最简单的例子,假设有一组细胞,细胞分为正常细胞( 类)和异常细胞( 类),所以 称为先验概率,目前有几种特征( ),我们依据这几种特征来分析出哪些是正常细胞哪些是异常细胞,所以我们其实就是要算出 的大小,然后哪一个概率大就判定为哪一类细胞。结合贝叶斯公式,我们可以知道:

                                                

通过这个式子,我们可以看出,本来直接求 的问题转换成了求解 的问题,而这两个概率我们可以根据对训练集做统计就可以求出来。

    三 朴素贝叶斯进行垃圾邮件分类</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值