朴素贝叶斯算法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。

1.关于概率

先验概率

通俗来讲,就是根据以往经验和分析得到的概率,先验概率无需样本数据,不受任何条件的影响,如根据常识而不根据西瓜状态来判断西瓜是否成熟。

后验概率

后验概率类似于条件概率。例如,就是根据瓜蒂是否脱落来推测西瓜成熟的概率,通常瓜蒂脱落的情况下,西瓜成熟的概率是75%,那么这个概率P(瓜熟|瓜蒂脱落)就被称为后验概率。

联合概率

P(瓜熟,瓜蒂脱落)就是瓜熟了且瓜蒂脱落的概率,即联合概率,满足下列乘法等式:
P(瓜熟,瓜蒂脱落)=P(瓜熟 | 瓜蒂脱落)P(瓜蒂脱落)=P(瓜蒂脱落 | 瓜熟)P(瓜熟)
其中:P(瓜熟 | 瓜蒂脱落)就是后验概率,即在“瓜蒂脱落”的情况下,“瓜熟”的概率。P(瓜蒂脱落 | 瓜熟)表示在“瓜熟”的情况下,“瓜蒂脱落”的概率。

全概率

瓜蒂脱落实际上有两种情况,一种是瓜熟状态下瓜蒂脱落,另一种是瓜生状态下瓜蒂脱落,那么瓜蒂脱落的概率就是这两种情况之和。
全概率公式如下:
P(瓜蒂脱落)=P(瓜蒂脱落 | 瓜熟)P(瓜熟)=P(瓜蒂脱落 | 瓜生)P(瓜生)

2.1极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。具体地,记关于类别c的类条件概率为P(x|c),假设P(x|c)具有确定的形式并且被参数向量ϴc唯一确定,则我们的任务就是利用训练集D估计ϴc,为明确起见,我们将P(x|c)记为P(x|ϴc)。事实上,概率模型的训练过程就是参数估计过程。统计学界提出了两个派别:一种是频率主义学派,认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值。另一种是贝叶斯学派,认为参数是未观察到的随机变量,其本身也可有分布。因此,可假定参数服从一个先验分布然后基于观测到的数据来计算参数的后验分布。极大似然估计属于频率主义学派。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2朴素贝叶斯算法

在这里插入图片描述
在这里插入图片描述

2.3关于拉普拉斯修正

在这里插入图片描述

3.朴素贝叶斯算法的流程

使用朴素贝叶斯对电子邮件进行分类
(1) 收集数据:提供文本文件。
(2) 准备数据:将文本文件解析成词条向量。
(3) 分析数据:检查词条确保解析的正确性。
(4) 训练算法:使用我们之前建立的trainNB0()函数。
(5) 测试算法:使用classifyNB(),并且构建一个新的测试函数来计算文档集的错误率。
(6) 使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值