朴素贝叶斯分类器

朴 素 贝 叶 斯 分 类 器 朴素贝叶斯分类器

一 贝叶斯定理

在这里插入图片描述

二 贝叶斯公式推导

2.1条件概率

定义:设A,B是试验E的两个随机事件,且P(B)>0,则称

在这里插入图片描述

在B条件下A发生的概率=AB同时发生的概率/B发生的概率

通过下图,此公式非常容易理解:P(A|B)就是在B条件下A的面积,P(AB)就是共同面积,P(B)就是B的面积
在这里插入图片描述

2.2 乘法公式

由条件概率推导出了乘法公式:

在这里插入图片描述

即得乘法公式

在这里插入图片描述


再由

在这里插入图片描述

即可得贝叶斯公式

在这里插入图片描述


三 一般化的贝叶斯公式

设A1, A2,…,An是样本空间Q的一个划分,P(Ai)>0,i=1,2,…,n ,B是任一事件,则有

在这里插入图片描述

四 一般化贝叶斯公式推导

4.1 全概率公式

定理(全概率公式):
设A1, A2,…,An是样本空间Q的一个划分,P(Ai)>0,i=1,2,…,n ,B是任一事件,则有

在这里插入图片描述

4.2 全概率公式证明

在这里插入图片描述

可由下图直观感受

在这里插入图片描述
在这里插入图片描述

4.3 一般贝叶斯公式推导

设A1, A2,…,An是样本空间Q的一个划分,P(Ai)>0,i=1,2,…,n ,B是任一事件,则有

在这里插入图片描述

在这里插入图片描述


4.4 连续概率的贝叶斯定理形式:

在这里插入图片描述

5 朴素贝叶斯分类器(Naive Bayes Classifier)

5.1 朴素贝叶斯分类模型

“朴素贝叶斯”(Naïve Bayes)既可以是一种算法——朴素贝叶斯算法,也可以是一种模型——朴素贝叶斯分类模型(分类器)。

首先我们来讲作为算法的 Naïve Bayes,朴素贝叶斯算法可以直接利用贝叶斯定理来实现。
先来看简洁版的贝叶斯定理:

在这里插入图片描述
假设,影响 B 的因素有 n 个,分别是 b1,b2,…,bn。而P(A)代表类别是A的概率
在这里插入图片描述
A 的先验概率 P(A) 和多个因素的联合概率 P(b1,b2,…,bn) 都是可以单独计算的,与 A 和 bi 之间的关系无关,因此这两项都可以被看作常数。

对于求解
P(A|b1,b2,…,bn),最关键的是 P(b1,b2,…,bn|A)。根据链式法则,可得:
在这里插入图片描述

链式法则比较难以理解,这里画图说明:举实例,只有b1,b2的情况下

在这里插入图片描述

如果从b1到bn这些特征之间,在概率分布式上是条件独立的,也就是每一个特征与其他特征都不相关
那么在 i不等于j的情况下,有
在这里插入图片描述

在这里插入图片描述
上式中b1到bn是特征,而A是最终的类别,所以
换一个写法
在这里插入图片描述
这个公式也就是我们的朴素贝叶斯分类器的模型函数!

5.2 朴素贝叶斯是如何做分类的

1.有一个朴素贝叶斯分类器模型器,它能够区分k个类别(c1、c2…ck),用来分类的特征有n个:(F1、F2…Fn)
2.现在有个样本s,我们要用NB分类器对它做预测,则需要先提取出这个样本的所有特征值F1到Fn,将其带入到下式中进行K次运算:
在这里插入图片描述
3.然后比较这k次的结果,选出使得运算结果达到最大值的那个cj,这个cj就是对应类别的预测值。

5.3 实例

假设有一家小公司招收机器学习工程师,为了在更广泛的范围内筛选人才,他们写了一些爬虫,去各个招聘平台、职场社交平台爬取简历,然后又写了一个简单的分类器,来筛选他们感兴趣的候选人。

这个筛选分类器是朴素贝叶斯分类器,训练数据是现在公司里的机器学习工程师和之前来面试过这一职位,没有被录取的人员的简历。

数据收集如下:
在这里插入图片描述
根据数据进行计算 :
在这里插入图片描述

直接从上图的样本中进行下图计算(c1录取,10个里面有6个,所以P(C=c1)=0.6,其他一样计算而出)
在这里插入图片描述
假设这时候一个样本x的特征值为f11,f22,f31(985毕业,硕士,掌握c++),那么:
在这里插入图片描述
思路:在训练的样本的基础上做一系列概率运算,然后用这些算出来的概率按朴素贝叶斯公式拼装成分类模型—这就成就了朴素贝叶斯分类器。

有人惊了!妈呀。训练过程连从模型函数、目标函数都不需要的吗?都不需要。

上述例子之所以这样简单,是因为我们简单地将频率当成了概率。但在现实应用中,这种方法往往不可行,因为这种方法实际上默认了“未被观测到”的就是“出现概率为0”的。这样做显然是不合理的。

比如:上面例子中,由于样本量太小,“博士”候选人只有两位,而且全部被录取,因此对于“未被录用”的情况而言,学历是博士的条件概率就变成了0。这种情况使得学历是否是博士成了唯一决定因素,显然不合理。

虽然我们可以靠做一些简单的变换——比如加一平滑法(就是把概率计算为:对应类别样本中该特征值出现次数 + 1 /对应类别样本总数)——来规避除以0的情况,但是这样做的“准确性”仍然非常不可靠。

额外补充

实例:


NB(朴素贝叶斯是如何做分类的)

1.有一个朴素贝叶斯分类器模型器,它能够区分k个类别
(c1、c2…ck),用来分类的特征有n个:(F1、F2…Fn)
2.现在有个样本s,我们要用NB分类器对它做预测,则需要先提取出这个样本的所有特征值F1到Fn,将其带入到下式中进行K次运算:
在这里插入图片描述
3.然后比较这k次的结果,选出使得运算结果达到最大值的那个cj,这个cj就是对应类别的预测值。


假设我们当前有一个模型,总共只有两个类别:c1 和 c2;有三个 Feature:F1、F2和F3。
F1 有两种可能性取值:f11 和 f12
F2 有三种可能性取值:f21、f22、f23
F3 也有两种可能性取值:f31、f32
在这里插入图片描述
把这些概率值都计算出来以后,就可以用来做预测了。

比如我们有样本X,它的特征值分别是f11,f22,f31,那么:
在这里插入图片描述
两者都算出来以后,只需要对比谁更大,那么就是对应类别。
上面那些先验概率和条件概率是如何得到的呢?

通过在训练样本中间做统计,就可以直接获得


在这里插入图片描述
在这里插入图片描述

补充:乘法公式的推广:在这里插入图片描述
归纳法得出推导公式
P(ABC) = P(AB)P(C|AB) 把AB看成一个整体
然后再看 P(AB)= P(A)P(B|A)
归纳法用的时候du也是这样的,
由归纳假设,把A1A2看成一zhi个整体, 那么A1A2,A3,…,An 就是n-1个事件
由归纳假设,运用n-1个事件时的公式可以得到
P(A1…An) = P(A1A2)P(A3|A1A2)…P(An|A1A2…An)
然后再用2个事件时的公式把P(A1A2)分解成P(A1)P(A2|A1)代入就可以完成证明

(这里有重点,频率的稳定性值是概率的直观解释,那概率的严格定义是啥?)
在这里插入图片描述
在满足上图中三个性质就是概率

这里有重点,目标函数一般需要依据模型函数所达到的目标进行设计和选择的。


  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值