关于朴素贝叶斯分类器(Naïve Bayes Classifiers)的理解以及其在scikit-learn当中的实现

本文介绍了朴素贝叶斯分类器的工作原理,通过邮件分类问题阐述了贝叶斯决策规则和贝叶斯定理。接着讨论了如何在scikit-learn中实现朴素贝叶斯分类器,包括GaussianNB、BernoulliNB和MultinomialNB三种类型,并解释了各自适用的数据类型。
摘要由CSDN通过智能技术生成

朴素贝叶斯分类器用于分类。所以,我们首先需要了解什么是分类问题

在机器学习中,分类指的是建立预测模型,然后针对给定的输入示例,预测其所属的类标签(class label)。例如,你收集了一些普通邮件(regular)和垃圾邮件(spam)的数据,并且抽取三个词("study", "free", "money")作为邮件的三个特征,来代表每封邮件,并且记录了它们所属的类别(category),收集到的数据如下:

以第一条数据为例,这封邮件中,它的三个特征'study'=1, 'free'=1, 'money'=0,标签为"regular"。也就是说这封邮件它内容中出现了"study"和"free"的字样,但是没有出现"money",它的类别是"regular"。以此类推。在这些数据的基础上,我们就可以建立一个模型,将邮件根据这三个特征分为两类。

当一封新的邮件出现时,我们就可以根据它的三个特征,也就是包不包含"study", "free", "money"这三个词,来将它归类为“regular"或者"spam",也就是普通邮件或者垃圾邮件。

这就是分类器的一个简单的应用,我们可以用它来过滤垃圾邮件。问题是,我们该如何根据邮件的这三个特征,将邮件分类呢?例如有一封新的邮件,它的三个特征是'study'=1, 'free'=1, 'money'=1,我们应该基于什么原理,把它归类为regular或者spam呢?

接下来就要介绍贝叶斯决策规则(Bayes Decision Rule):

P(y|x) = \frac{P(x|y)P(y)}{P(x)}

其中,P(y)是先验概率(prior probability),指的是在观测前我们已知的结果概率分布。P(y|x)是后验概率(posterior probability),指的是在观测到x后我们对结果y的估计。例如抛一枚硬币,在最开始的时候我们会觉得硬币正面或者反面的概率都是二分之一,即P(y=1)=P(y=0)=0.5。可是在之后,你观测到了硬币的一些特征(比如它的厚度、大小),在这个基础上再计算抛硬币正面的概率,用数学语言表达即为P(y|x),x指的是你在抛硬币之前的观察。

为了计算后验概率,我们需要贝叶斯定理(Bayes Theorem):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值