python机器学习小记——基于朴素贝叶斯(Native Bayes,NB)模型的分类预测

【阿里天池云-龙珠计划】python机器学习小记

在这里插入图片描述

<task02: 朴素贝叶斯(Naive Bayes)分类模型>

一、朴素贝叶斯(Naive Bayes)算法原理及应用介绍

二、算法实战——基于iris数据集的贝叶斯分类

三、模拟离散数据集–贝叶斯分类

四、朴素贝叶斯在自然语言处理中的应用


【写在前面】
不知不觉已经第二篇了,希望可以坚持下去总结一年多的积累
曾无数次遇到bug在CSDN找到了解答,这个系列的总结也算是回馈给有需要的广大读者
感谢群主提供的学习机会@AI蜗牛车,群KOL@老表
推荐一下群主的公众号:AI蜗牛车,文中对于文本分类相关内容很多整理自公众号的白话机器学习部分👍
再推荐下此系列的上一篇博文——基于逻辑回归的分类预测

python机器学习小记——基于逻辑回归模型的多分类场景预测实战

那么我们开始吧~~


1.朴素贝叶斯(Naive Bayes)算法原理及应用介绍

1.1. 朴素贝叶斯(Naive Bayes)的介绍

朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。基于贝叶斯公式计算得到,它是基于贝叶斯定义和特征条件独立假设的分类器方法。

之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。

其有着坚实的数学基础,以及稳定的分类效率,且NB模型所需估计的参数很少对缺失数据不太敏感,算法也比较简单。适用于垃圾邮件过滤、情感预测、推荐系统等常见分类预测场景。尤其值得一提的是,对于文本分类任务,尤其是对于英文等语言来说,分类效果很好。

优劣势:

  • 优点:实现简单,数理基础坚实,分类效率稳定,所需参数少,对缺失值不敏感。而且在数据量很小的时候表现良好,数据量很大的时候也可以进行增量计算。由于朴素贝叶斯使用先验概率估计后验概率具有很好的模型的可解释性;
  • 缺点:专用于解决分类问题,只接受数值型、离散型,或者0-1二元型的自变量;基于自变量独立分布的假设,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。为解决特征之间的相关性,我们还可以使用数据降维(PCA)的方法,去除特征相关性,再进行朴素贝叶斯计算。

1.2. 朴素贝叶斯(Naive Bayes)的算法原理

什么是条件概率,我们从一个摸球的例子来理解。我们有两个桶:灰色桶和绿色桶,一共有7个小球,4个蓝色3个紫色,分布如下图:
在这里插入图片描述

从这7个球中,随机选择1个球是紫色的概率p是多少?选择过程如下:

  1. 先选择桶
  2. 再从选择的桶中选择一个球

p ( 球 = 紫 色 ) = p ( 选 择 灰 桶 ) ⋅ p ( 从 灰 桶 中 选 择 紫 色 ) + p ( 选 择 绿 桶 ) ⋅ p ( 从 绿 桶 中 选 择 紫 色 ) = 1 2 ⋅ 2 4 + 1 2 ⋅ 1 3 p(球=紫色) \\ =p(选择灰桶) \cdot p(从灰桶中选择紫色) + p(选择绿桶) \cdot p(从绿桶中选择紫色) \\ =\frac{1}{2} \cdot \frac{2}{4} + \frac{1}{2} \cdot \frac{1}{3} p(=)=p()p()+p(绿)p(绿)=2142+2131

上述我们选择小球的过程就是条件概率的过程,在选择桶的颜色的情况下是紫色的概率,另一种计算条件概率的方法是贝叶斯准则。

贝叶斯公式是英国数学家提出的一个数据公式:
p ( A ∣ B ) = p ( A , B ) p ( B ) = p ( B ∣ A ) ⋅ p ( A ) ∑ a ∈ F A p ( B ∣ a ) ⋅ p ( a ) p(A|B)=\frac{p(A,B)}{p(B)}=\frac{p(B|A) \cdot p(A)}{\sum_{a \in ℱ_A}p(B|a) \cdot p(a)} p(AB)=p(B)p(A,B)=aFAp(Ba)p(a)p(BA)p(A)

p(A,B):表示事件A和事件B同时发生的概率。

p(B):表示事件B发生的概率,叫做先验概率;p(A):表示事件A发生的概率。

p(A|B):表示当事件B发生的条件下,事件A发生的概率叫做后验概率。

p(B|A):表示当事件A发生的条件下,事件B发生的概率。

我们用一句话理解贝叶斯:世间很多事都存在某种联系,假设事件A和事件B。人们常常使用已经发生的某个事件去推断我们想要知道的之间的概率。
例如,医生在确诊的时候,会根据病人的舌苔、心跳等来判断病人得了什么病。对病人来说,只会关注得了什么病,医生会通道已经发生的事件来
确诊具体的情况。这里就用到了贝叶斯思想,A是已经发生的病人症状,在A发生的条件下是 B i B_i Bi的概率。

朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立。

输入 X ∈ R n X \in R^n XRn空间是n维向量集合,输出空间 y = { c 1 , c 2 , . . . , c K } y=\{c_1,c_2,...,c_K\} y={ c1,c2,...,cK}. 所有的X和y都是对应空间上的随机变量. P ( X , Y ) P(X,Y) P(X,Y)是X和Y的联合概率分别. 训练数据集(由 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生):
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={ (x1,y1),(x2,y2),...,(xN,yN)}

计算测试数据x的列表,我们需要依次计算 P ( Y = c k ∣ X = x ) P(Y=c_k|X=x) P(Y=ckX=x),取概率最大的值,就是x对应的分类。

P ( Y = c k ∣ X = x ) P(Y=c_k|X=x) P(Y=ckX=x)我们一般这样解释,当给定 ( X = x ) (X=x) (X=x)的条件下, Y = c k Y=c_k Y=ck的概率,这就是条件概率. 这就简单了,我们只需要每个的x,计算其对应的 c k , k ∈ [ 1 , 2 ,

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
【资源说明】 1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载使用体验! 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【项目介绍】 机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip 机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip 机器学习基于Python朴素叶斯的新闻文本分类项目源码.zip

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值