机器学习 朴素贝叶斯之邮件分类

该博客介绍了贝叶斯算法的基础,包括先验概率、后验概率和贝叶斯定理,并详细阐述了朴素贝叶斯分类器的工作原理,如拉普拉斯修正和防溢出策略。通过垃圾邮件分类实例,展示了如何利用朴素贝叶斯对电子邮件进行分类,利用数据集进行训练和测试,实现了对邮件内容的有效判断。
摘要由CSDN通过智能技术生成

目录

一.贝叶斯算法:

        1.先验概率:

        2.后验概率:

        3.贝叶斯定理:

        4.概率模型:

二.朴素贝叶斯分类器:

        1.朴素贝叶斯分类:

        2.拉普拉斯修正:

         3.防溢出策略:

        4.垃圾邮件分类:

三.利用朴素贝叶斯分类对于电子邮件分类

        1.使用的数据集:

         2.相关代码:

        3.运行结果:


        贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。

        朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。

一.贝叶斯算法:

需要了解贝叶斯算法,首先我们需要了解一下先验概率和后验概率;

        1.先验概率:

        通常可以用样例中属于c j 的样例数 | c j | 比上总样例数 | D |来近似 P ( c j ) 代表还没有训练模型之前,根据历史数据 / 经验估算 c j 拥有的初始概率,即先验概率。

        2.后验概率:

        
        给定数据样本x c j 成立的概率 P ( c j | x ) 被称为后验概率 ,它反映了在看到数据样本 x c j成立的置信度,即观测到 x 后对结果 y 的估计。
大部分的机器学习模型中,我们尝试得到的是后验概率,即通过已有的数据构造模型,使得计算机估计新的事件发生的概率。

        3.贝叶斯定理:

        已知两个独立事件A B ,事件 B 发生的前提下,事件 A 发生的概率可以表示为 P ( A | B ) ,即上图中橙色部分占红色部分的比例,即:

        4.概率模型:

那么我们如何应用贝叶斯定理到机器上,首先要在机器要建立一个概率模型;

在机器学习中,通常分为

判别式模型:

         判别模型之所以称为“判别”模型,是因为其根据X“判别”Y,由数据直接学习决策函数Y=f(X)或者条件概率分布作为预测的模型。

 生成式模型:

        生成模型之所以称为“生成”模型,是因为利用训练数据学习P(X|Y)和P(Y)的估计,得到联合概率分布,然后求得后验概率分布,再利用它进行分类。

在机器学习中任务是从属性X预测标记Y,判别模型求的是P(Y|X),即后验概率;而生成模型最后求的是P(X,Y),即联合概率。本文中的朴素贝叶斯属于生成式模型。

二.朴素贝叶斯分类器:

        1.朴素贝叶斯分类:

        朴素贝叶斯分类器采用了属性条件独立性假设,即所有属性都是条件独立的,联合概率就等于每个单独属性概率的乘积。

P(C=c|X=x)P(c|x),基于属性条件独立性假设,贝叶斯公式可重写为:

 

  • 2
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值