机器学习 day04(三)

朴素贝叶斯

【关键词】
朴素:独立性假设
贝叶斯公式

优点:

朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;
对小规模的数据表现很好;
能处理多分类任务,适合增量式训练;
对缺失数据不太敏感,算法也比较简单,常用于文本分类

缺点:

只能用于分类问题
需要计算先验概率;
分类决策存在错误率;
对输入数据的表达形式很敏感

一、朴素贝叶斯原理

朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:
在这里插入图片描述
这个公式虽然看上去简单,但它却能总结历史,预知未来:

  • 公式的右边是总结历史
  • 公式的左边是预知未来

如果把Y看成类别,X看成特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。

举个例子,大学的时候,某男生经常去图书室晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,图书馆又不开空调,如果那个女生没有去自修室,该男生也就不去,每次男生鼓足勇气说:“嘿,你明天还来不?”,“啊,不知道,看情况”。

然后该男生每天就把她去自习室与否以及一些其他情况做一下记录,用Y表示该女生是否去自习室,即Y={去,不去},X是跟去自修室有关联的一系列条件,比如当天上了哪门主课,蹲点统计了一段时间后,该男生打算今天不再蹲点,而是先预测一下她会不会去,现在已经知道了今天上了常微分方法这么主课,于是计算P(Y=去|常微分方程)与P(Y=不去|常微分方程),看哪个概率大,如果P(Y=去|常微分方程) >P(Y=不去|常微分方程),那这个男生不管多热都屁颠屁颠去自习室了,否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下,那天主课是常微分的概率P(常微分方程|Y=去),注意公式右边的分母对每个类别(去/不去)都是一样的,所以计算的时候忽略掉分母,这样虽然得到的概率值已经不再是0~1之间,但是通过比较大小还是能选择类别。

后来他发现还有一些其他条件可以挖,比如当天星期几、当天的天气,以及上一次与她在自修室的气氛,统计了一段时间后,该男子一计算,发现不好算了,因为总结历史的公式:
在这里插入图片描述
这里n=3,x(1)表示主课,x(2)表示天气,x(3)表示星期几,x(4)表示气氛,Y仍然是{去,不去},现在主课有8门,天气有晴、雨、阴三种、气氛有A+,A,B+,B,C五种,那么总共需要估计的参数有8×3×7×5×2=1680个,每天只能收集到一条数据,那么等凑齐1680条数据,大学都毕业了,男生大呼不妙,于是做了一个独立性假设,假设这些影响她去自习室的原因是独立互不相关的,于是:

在这里插入图片描述
有了这个独立假设后,需要估计的参数就变为,(8+3+7+5)×2 = 46个了,而且每天收集的一条数据,可以提供4个参数,这样该男生就预测越来越准了。

朴素的概念:独立性假设,假设各个特征之间是独立不相关的。

朴素贝叶斯分类器

讲了上面的小故事,我们来朴素贝叶斯分类器的表示形式:
在这里插入图片描述
当特征为为x时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的,因此计算时可以不考虑分母,即
在这里插入图片描述
朴素贝叶斯的朴素体现在其对各个条件的独立性假设上,加上独立假设后,大大减少了参数假设空间。
pg)

在文本分类上的应用

文本分类的应用很多,比如垃圾邮件和垃圾短信的过滤就是一个2分类问题,新闻分类、文本情感分析等都可以看成是文本分类问题,分类问题由两步组成:训练和预测,要建立一个分类模型,至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上:现在有一篇文档d(Document),判断它属于哪个类别ck,只需要计算文档d属于哪一个类别的概率最大:

在这里插入图片描述
在分类问题中,我们并不是把所有的特征都用上,对一篇文档d,我们只用其中的部分特征词项t1,t2,…,tnd(nd表示d中的总词条数目),因为很多词项对分类是没有价值的,比如一些停用词“的,是,在”在每个类别中都会出现,这个词项还会模糊分类的决策面,关于特征词的选取,我的这篇文章有介绍。用特征词项表示文档后,计算文档d的类别转化为:

在这里插入图片描述

注意P(Ck|d)只是正比于后面那部分公式,完整的计算还有一个分母,但我们前面讨论了,对每个类别而已分母都是一样的,于是在我们只需要计算分子就能够进行分类了。实际的计算过程中,多个概率值P(tj|ck)的连乘很容易下溢出为0,因此转化为对数计算,连乘就变成了累加:

在这里插入图片描述
我们只需要从训练数据集中,计算每一个类别的出现概率P(ck)和每一个类别中各个特征词项的概率P(tj|ck),而这些概率值的计算都采用最大似然估计,说到底就是统计每个词在各个类别中出现的次数和各个类别的文档的数目
在这里插入图片描述

在这里插入图片描述

二、3种贝叶斯模型

1、高斯分布朴素贝叶斯

高斯分布就是正态分布
【用途】用于一般分类问题

例子:使用自带的鸢尾花数据

  1. 导入高斯分布模块
rom sklearn.naive_bayes import GaussianNB
  1. 导入鸢尾花数据集
    在这里插入图片描述

  2. 创建高斯贝叶斯模型
    在这里插入图片描述

  3. 查看相关性能的数据
    在这里插入图片描述
    可以发现,这些性能还行,没有过拟合

  4. 查看归属的概率
    在这里插入图片描述
    这是一个三分类问题,对其进行处理
    2这个属性归属于1的概率为0.96
    在这里插入图片描述
    三分类问题,特别是对于贝叶斯模型不需要设置阀值,其实对于贝叶斯模型不需要去计算概率问题

  5. 查正率,查全率,f1值
    在这里插入图片描述

2、多项式分布朴素贝叶斯

多项式分布:

在这里插入图片描述

【用途】适用于文本数据(特征表示的是次数,例如某个词语的出现次数)

例子:延续上面,使用鸢尾花数据
现在只是了解这些怎么去调用,后面会具体应用

  1. 创建多项式分布朴素贝叶斯模型
    在这里插入图片描述
  2. 查看性能
    在这里插入图片描述
    可以发现,使用多项式分布朴素贝叶斯模型,这个鸢尾花数据的经验性能和泛化性能不如正态分布
3、伯努利分布朴素贝叶斯

伯努利分布:

在这里插入图片描述

【用途】适用于伯努利分布,也适用于文本数据(此时特征表示的是是否出现,例如某个词语的出现为1,不出现为0)

绝大多数情况下表现不如多项式分布,但有的时候伯努利分布表现得要比多项式分布要好,尤其是对于小数量级的文本数据

例子:继续使用鸢尾花数据集

  1. 创建伯努利分布朴素贝叶斯模型

在这里插入图片描述

  1. 查看性能

在这里插入图片描述

三、文本分类实战

1. 了解一下数据

导入模块

import pandas as pd

读取csv文件

在这里插入图片描述
任务:区分垃圾邮件和正常邮件

首先取出标签和特征,然后进行训练
在这里插入图片描述
由于特征是一句话或者一个文本,无法参与到数学运算
处理方式 : 将文本进行向量化

如何将文本进行向量化?
用自然语言处理的相关工具来进行将文本向量化

创建 TfidfVectorizer 模型
在这里插入图片描述
转化data
在这里插入图片描述

接下来可以参考上篇自然语言处理

2. 用多项式贝叶斯模型来训练
  1. 分离测试集与训练集,进行训练
    在这里插入图片描述
  2. 查看性能
    在这里插入图片描述
3. 绘制混淆矩阵来可视化分析性能
  1. 创建混淆矩阵
    在这里插入图片描述

  2. 预测概率,对比
    在这里插入图片描述

  3. 把y_test中标签同一成数字,(布尔值代表0和1,也可以直接用数字0和1)
    在这里插入图片描述

  4. 用roc_curve函数来计算每个阀值,fpr和tpr
    在这里插入图片描述
    阀值,auc值,auc值越大,性能越好
    在这里插入图片描述

  5. 绘制ROC曲线
    在这里插入图片描述

4. 用伯努利贝叶斯来预测
  1. 创建伯努利贝叶斯模型进行训练
    在这里插入图片描述
  2. 查看性能
    在这里插入图片描述
  3. 创建混淆矩阵
    在这里插入图片描述
  4. 绘制伯努利贝叶斯模型 b_NB 的 ROC曲线
    在这里插入图片描述对比ROC曲线
    在这里插入图片描述
    从ROC曲线来看,b_nb的性能比较好
5. 判断最优阀值

官方选的阀值是0.5,如果让我们来手动选阀值,可以更加关注于精确率或者是召回率

  1. 确定b_nb的阀值都是哪些
    在这里插入图片描述
  2. 绘制ROC曲线
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值