机器学习之朴素贝叶斯实现垃圾邮件过滤

本文介绍了朴素贝叶斯方法在垃圾邮件过滤中的应用。从朴素贝叶斯的概述、基本公式到实现垃圾邮件过滤的步骤,详细阐述了如何通过训练数据集计算条件概率分布,并使用贝叶斯定理进行分类。最后,讨论了该方法的优点和缺点。
摘要由CSDN通过智能技术生成

一.朴素贝叶斯概述

朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布(朴素贝叶斯法这种通过学习得到模型的机制,显然属于生成模型);然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y

二.朴素贝叶斯的基本公式

1.联合分布率

联合概率表示为包含多个条件并且所有的条件都同时成立的概率,记作 P ( X = a , Y = b ) P(X=a,Y=b) P(X=a,Y=b) 或 P ( a , b ) P(a,b) P(a,b) 或 P ( a b ) P(ab) P(ab)

2.条件概率

有一个装了 7 块石头的罐子,其中 3 块是白色的,4 块是黑色的。如果从罐子中随机取出一块石头,那么是白色石头的可能性是多少

显然,取出白色石头的概率为 3/7 ,取到黑色石头的概率是 4/7 。我们使用 P(white) 来表示取到白色石头的概率,其概率值可以通过白色石头数目除以总的石头数目来得到。 

7 块石头如图所示,放在两个桶中,那么条件概率应该如何计算 ?

要计算 P(white) 或者 P(black) ,显然,石头所在桶的信息是会改变结果的,这就是条件概率 conditional probability。假定计算的是从 B 桶取到白色石头的概率,这个概率可以记作 P(white|bucketB) ,我们称之为 “在已知石头出自 B 桶的条件下,取出白色石头的概率”。

很容易得到,P(white|bucketA) 值为 2/4 ,P(white|bucketB)的值为 1/3 。

条件概率计算公式如下:

 

放到我们这个例子中来: P(white|bucketB) = P(white and bucketB) / P(bucketB)

公式解读:

P(white|bucketB):在已知石头出自 B 桶的条件下,取出白色石头的概率
P(white and bucketB):取出 B 桶中 白色石头的概率 = 1 / 7
P(bucketB):取出 B 桶中石头的概率 3 / 7
 

3.贝叶斯定理

另外一种有效计算条件概率的方法称为贝叶斯定理。贝叶斯定理告诉我们如何交换条件概率中的条件与结果,即如果已知 P(X|Y),要求 P(Y|X):

P(Y∣X)=P(X∣Y)P(Y)​/P(X)

P(Y):先验概率。先验概率(prior probability)是指事情还没有发生,求这件事情发生的可能性的大小,是先验概率。它往往作为"由因求果"问题中的"因"出现。

P ( Y ∣ X ) P(Y|X) P(Y∣X):后验概率。后验概率是指事情已经发生

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值