【机器学习】贝叶斯分类器

最新推荐文章于 2024-03-05 13:36:06 发布

htshinichi

最新推荐文章于 2024-03-05 13:36:06 发布

阅读量770

点赞数

分类专栏：学习笔记文章标签：机器学贝叶算

本文链接：https://blog.csdn.net/u013597931/article/details/79736013

版权

学习笔记专栏收录该内容

27 篇文章 2 订阅

订阅专栏

一看到贝叶斯，就想起了概率论与数理统计，emmm，很不喜欢概率论，然而又不得不学(╥╯^╰╥)

【贝叶斯公式】

不管怎么样，复习贝叶斯公式是关键。
通常把某事件 $Y$ 的发生概率叫做实验前概率，又叫先验概率，记作 $P(Y)$ ，若事件 $X$ 和 $Y$ 有某种关系，即 $Y$ 和 $X$ 不是互相独立的，那么 $X$ 发生后， $Y$ 发生的概率被叫做条件概率或者实验后概率，又叫后验概率，记作 $P(Y|X)$
　　　　　　　　 $P(Y|X)=\frac{P(YX)}{P(X)}$ （条件概率公式）
若 $X_1、X_2、...X_n$ 这n个事件相互独立，即当且仅当 $X_i$ 中任意一个发生时 $Y$ 才发生，则：
$P(Y)=P(X_1)P(Y|X_1)+P(X_2)P(Y|X_2)+...+P(X_n)P(Y|X_n)$ $=\sum\limits_{i=1}^nP(X_i)P(Y|X_i)$ 　　(全概率公式)　　　　　　　
又因为 $P(Y|X)P(X)=P(X|Y)P(Y)$ 　　(乘法公式)
所以 $P(X_k|Y)=\frac{P(Y|X_k)P(X_k)}{P(Y)}$
将 $P(Y)=\sum\limits_{i=1}^nP(X_i)P(Y|X_i)$ 带入上式，可得：
$P(X_k|Y)=\frac{P(Y|X_k)P(X_k)}{\sum\limits_{i=1}^nP(X_i)P(Y|X_i)}$

【条件独立性】

举个《数据挖掘导论》上的例子，一个人的手臂长短和他的阅读能力之间的关系。我们可能会发现手臂较长的人阅读能力也较强，这种关系可以用另一个原因去解释，那就是年龄，小孩子的手臂较短，且相较于成年人，阅读能力也较弱。当我们固定年龄这一因素后，就会发现手臂长短和阅读能力之间的关系就消失了，因此可以得出结论，年龄一定时，手臂长短和阅读能力条件独立。
我们在朴素贝叶斯中会用到这一性质，即 $x_i^{(1)},x_i^{(2)},...x_i^{(n)}$ 之间条件独立，对于样本 $x_i$ 来说，它的分类为 $c_k$ 的条件概率为：
$P(X_i=x_i|Y=c_k)=P(X_i^{(1)}=x_i^{(1)}|Y=c_k)P(X_i^{(2)}=x_i^{(2)}|Y=c_k)...P(X_i^{(n)}=x_i^{(n)}|Y=c_k)=\prod\limits_{j=1}^nP(X_i^{(j)}=x_i^{(j)}|Y=c_k)$

【朴素贝叶斯分类器】

基于 $x_i^{(1)},x_i^{(2)},...x_i^{(n)}$ 特征之间条件独立假设，朴素贝叶斯学习输入、输出的联合概率分布，然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。
假设 $X$ 是定义在输入空间上的随机变量， $Y$ 是定义在输出空间上的随机变量。输入空间 $x_i\in$ { $x_1,x_2,...,x_N$ }，第 $i$ 个样本的第 $j$ 个特征有 $m$ 个取值，即 $x_i^{(j)}\in$ { $a_{j1},a_{j2},...,a_{jm}$ }，输出空间的类有 $y_i\in$ { $c_1,c_2,...,c_K$ }
朴素贝叶斯分类器基本公式为（对于给定输入 $x$ ，计算它的后验概率分布）：
$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod\limits_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum\limits_{k=1}^KP(Y=c_k)\prod\limits_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}$

朴素贝叶斯分类器可表示为：
$y=f(x)=arg\max\limits_{c_k}\frac{P(Y=c_k)\prod\limits_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum\limits_{k=1}^KP(Y=c_k)\prod\limits_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)}$

【朴素贝叶斯的参数估计】

对于我们训练出来的朴素贝叶斯分类器，我们希望对于每一个训练样本的正确分类的后验概率都是越大越好，比如对于样本 $x_1$ ，它的真实标签是 $c_3$ ，则我们希望 $P(Y=c_3|X=x_1)$ 在所有 $P(Y=c_k|X=x_1)$ 中的值最大。( $k$ 取 $1,2,..K$ )

极大似然估计

①先验概率

$P(Y=c_k)=\frac{\sum\limits_{i=1}^NI(y_i=c_k)\color{red}{(全部训练样本中类为c_k的数量)}}{N\color{red}{(训练样本的总数)}}$

②条件概率

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)\color{red}{(全部样本中类为c_k且第j个特征是a_{jl}值的数量)}}{\sum\limits_{i=1}^NI(y_i=c_k)\color{red}{(全部训练样本中类为c_k的数量)}}$
$\color{grey}{比如X^{(1)}有三种取值a_{11},a_{12},a_{13}分别是A,B,C；X^{(2)}有两种取值a_{21},a_{22}分别是0,1。。。}$

③对于给定的实例 $x=(x^{(1)},x^{(2)},...,x^{(m)})$

计算 $P(Y=c_k|X=x)=P(Y=c_k)P(X^{(1)}=x^{(1)}|Y=c_k)P(X^{(2)}=x^{(2)}|Y=c_k)...P(X^{(m)}=x^{(m)}|Y=c_k)=P(Y=c_k)\prod\limits_{j=1}^mP(X^{(j)}=x^{(j)}|Y=c_k)$
$\color{red}{求类为c_k时实例x的所有特征的条件概率和类为c_k的先验概率之积，}$
$\color{red}{即P(Y=c_k|X=x)}$
$\color{grey}{比如实例x的第一个特征x^{(1)}为C；第二个特征x^{(2)}为1。。。}$

④确定实例的类

$y=arg\max\limits_{c_k}P(Y=c_k)\prod\limits_{j=1}^mP(X^{(j)}=x^{(j)}|Y=c_k)$
$\color{red}{对于每一个类别c_k都用P(Y=c_k)\prod\limits_{j=1}^mP(X^{(j)}=x^{(j)}|Y=c_k)求一下概率，}$
$\color{red}{哪个类别概率最大，就将输入实例x划分为那个类别（c_k\in (c_1,c_2,...,c_K)）}$

贝叶斯估计

由于用极大似然估计可能会出现要估计的概率值为0的情况(比如某个类为 $c_k$ 特征为 $a_{jl}$ 的样本在训练样本上没有出现过，那么 $\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)$ 将会等于0，对于条件概率来说，分子为0了，条件概率也就为0了)，这样会使后验概率(条件概率)的计算结果出现问题，导致分类产生偏差。
因此采用贝叶斯估计，即加上一个 $λ\ge0$ ，常取 $λ=1$ ，这时被称为拉普拉斯平滑

①先验概率

$P_λ(Y=c_k)=\frac{\sum\limits_{i=1}^NI(y_i=c_k)+λ\color{red}{(全部训练样本中类为c_k的数量+λ)}}{N+Kλ\color{red}{(训练样本的总数+λ\times类的个数K)}}$

②条件概率

$P_λ(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+λ\color{red}{(全部样本中类为c_k且第j个特征是a_{jl}值的数量+λ)}}{\sum\limits_{i=1}^NI(y_i=c_k)+mλ\color{red}{(全部训练样本中类为c_k的数量+λ\times每个样本x中的特征数量m)}}$

③对于给定的实例 $x=(x^{(1)},x^{(2)},...,x^{(m)})$

计算 $P(Y=c_k)P(X^{(1)}=x^{(1)}|Y=c_k)P(X^{(2)}=x^{(2)}|Y=c_k)...P(X^{(m)}=x^{(m)}|Y=c_k)=P(Y=c_k)\prod\limits_{j=1}^mP(X^{(j)}=x^{(j)}|Y=c_k)$

④确定实例的类

$y=arg\max\limits_{c_k}P(Y=c_k)\prod\limits_{j=1}^mP(X^{(j)}=x^{(j)}|Y=c_k)$

条件独立性是一个较强的假设，根据这个假设，朴素贝叶斯模型中包含的条件概率的数量大为减少，使得它的学习与预测大大简化，因而朴素贝叶斯法高效，且易实现，当然其缺点就是分类的性能不一定很高。(即对于无关属性来说，朴素贝叶斯是高效的，但对于相关属性来说，条件独立性的假设不成立，因此会降低分类性能)

对于孤立的噪声点，朴素贝叶斯是健壮的，因为在数据中估计条件概率时，这些点会被平均。

【半朴素贝叶斯分类器和贝叶斯信念网络】

关于半朴素贝叶斯分类器和贝叶斯信念网络，具体的内容就没有继续探究下去了，记了一下概念和常用的方法，心中有个印象，^_^等以后进阶再去读一读PRML。

半朴素贝叶斯分类器

周志华老师的西瓜书上还有提到一种半朴素贝叶斯分类器，其由来是因为在现实任务中，条件独立性假设往往很难成立，因此，我们对条件独立性进行一定程度的放松。即适当考虑一部分属性(特征)间的相互依赖信息，从而既不需要进行完全联合概率的计算，又不至于彻底忽略了比较强的属性依赖关系。
朴素贝叶斯的常用策略有：
ODE(One-Dependent Estimator,独依赖估计)，独依赖即假设每个属性在类别之外最多仅依赖于其他一个属性。
SPODE(Super-Parent ODE)，假设所有属性都依赖于同一个属性(超父属性)，通过交叉验证等模型选择方法确定超父属性。
TAN(Tree Augmented naïve Bayes)，在最大带权生成树基础上，将属性间依赖关系约简为树形结构。
AODE(Averaged One-Dependent Estimator)，一种基于集成学习的独依赖分类器，它尝试将每个属性作为超父属性来构建SPODE，然后确定那些具有足够训练数据支撑的SPODE集成起来作为最终结果。

贝叶斯信念网络

贝叶斯信念网络(Bayesian belief networks,BBN)，简称贝叶斯网络，它用图形表示一组随机变量之间的概率关系。主要有两个组成成分：
(1)有向无环图(Directed Acyclic Graph,DAG)，用来刻画属性之间的依赖关系
(2)条件概率表(Conditional Probability Table,CPT)，用来描述属性的联合概率分布，即把各节点和它的直接父节点关联起来。

参考文献：《统计学习方法》、《机器学习》、《数据挖掘导论》

htshinichi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
【机器学习】贝叶斯分类器

一看到贝叶斯，就想起了概率论与数理统计，emmm，很不喜欢概率论，然而又不得不学(╥╯^╰╥)【贝叶斯公式】不管怎么样，复习贝叶斯公式是关键。通常把某事件YYY的发生概率叫做实验前概率，又叫先验概率，记作P(Y)P(Y)P(Y)，若事件XXX和YYY有某种关系，即YYY和XXX不是互相独立的，那么XXX发生后，YYY发生的概率被叫做条件概率或者实验后概率，又叫后验概率，记作P(Y|...
复制链接

扫一扫