贝叶斯分类器

最新推荐文章于 2023-10-08 11:24:59 发布

xholes

最新推荐文章于 2023-10-08 11:24:59 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习文章标签：贝叶斯决策分类生成模型机器学习

本文链接：https://blog.csdn.net/xholes/article/details/78151797

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

贝叶斯分类器

贝叶斯决策

贝叶斯决策理论是在概率的框架下进行决策的基本方法。假设有 $N$ 种可能的类内标记，即 $\mathcal Y=\{c_1,c_2,c_3,...,c_n\}$ ,而 $\lambda_{ij}$ 表示将 $c_j$ 类误分为 $c_i$ 的损失代价。基于后验概率 $P(c_i\mid x)$ 可能将样本 $x$ 分类为 $c_i$ 所产生的期望损失，也就是在样本 $x$ 上的条件风险：

R (c i ∣ x) = \sum j = 1 N λ i j P (c j ∣ x) (1)

$R(c_i \mid x)=\sum_{j = 1}^N \lambda_{ij}P(c_j \mid x)\qquad (1)$
如果定义损失函数为：

L(y,y^)=L(y,h(x))={0,y=h(x)1,y≠h(x)

$L(y,\hat y)=L(y,h(x))=\left \{ \begin{array}{} 0,\; y =h(x)\\ 1,\; y \neq h(x)\\ \end{array} \right.$
此处的损失函数和

λij $\lambda_{ij}$ 的一种具体形式。那么式(1)可以写成：

R (c i ∣ x) = \sum j = 1 N L (c i, c j) P (c j ∣ x)

$R(c_i \mid x)=\sum_{j = 1}^N L(c_i,c_j)P(c_j \mid x)$ 那么问题就可以转化为寻找一个判定准则：

h:X→Y $h: \mathcal X \to \mathcal Y$ 使得最小化总体风险:

R (h) = E x [R (h (x) ∣ x)] = E x [\sum j = 1 N L (h (x), c j) P (c j ∣ x)] (2)

$\begin{align} R(h) &= \mathbb E_x\left[R(h(x)\mid x)\right]\\ &=\mathbb E_x[\sum_{j = 1}^N L(h(x),c_j)P(c_j \mid x)] \qquad(2) \end{align}$ 显然，对每个样本

x $x$ 若

h $h$ 能最小化条件风险，则总体风险

R(h) $R(h)$ 也将被最小化。

y^= f (x) = arg min c \in Y \sum j = 1 N L (c, c j) P (c j ∣ x) = arg min c \in Y \sum j = 1 N P (c \neq c j ∣ x) = arg min c \in Y 1 - P (c = c j ∣ x) = arg max c \in Y P (c = c j ∣ x) = arg max c \in Y P (c ∣ x)

$\begin{align} \hat y&=f(x)\\ &=\arg \underset {c \in \cal Y} \min\sum_{j = 1}^N L(c,c_j)P(c_j \mid x)\\ &=\arg \underset {c \in \cal Y} \min\sum_{j = 1}^N P(c\neq c_j \mid x)\\ &=\arg \underset {c \in \cal Y} \min \;1-P(c= c_j \mid x)\\ &=\arg \underset {c \in \cal Y} \max \;P(c= c_j \mid x)\\ &=\arg \underset {c \in \cal Y} \max \;P( c \mid x)\\ \end{align}$

这就解释了最大化后验概率等价于最小化总体风险，也是朴素贝叶斯采用的基本原理！！！ $\color{red}{这就解释了最大化后验概率等价于最小化总体风险，也是朴素贝叶斯采用的基本原理！！！}$

这就是贝叶斯判定准则：为最小化总体风险，只需要在每个样本上选择那个能使条件风险最小的类别标记，即

h * (x) = arg min c \in Y R (c ∣ x) = arg max c \in Y P (c ∣ x) (3)

$h^*(x)= \arg\underset{c \in \mathcal Y}{ \min}\ R(c \mid x)=\arg \underset {c \in \cal Y} \max \;P( c \mid x)\qquad (3)$ 此时，称

h∗ $h^*$ 为贝叶斯最优分类器，与之对应的总体风险

R(h∗) $R(h^* )$ 为贝叶斯风险，

1−R(h∗) $1 - R (h^* )$ 反映了分类器能达到的最好的性能。

那么根据公式(1)就不难知道，如果需要最小化风险，就必须知道后验概率 $P\left(c \mid x\right)$ . 从这个角度来看，所有的机器学习算法就是基于训练样本来估计后验概率。主要的策略有：
1. 给定 $x$ ，通过直接建模 $P\left(c \mid x \right)$ ,然后预测 $c$ ，这种得到的模型称之为“判别式模型“。
2. 先对联合概率分布 $P\left(c,x\right)$ 进行建模，然后由此获得 $P\left(c \mid x\right)$ ,这种模型称之为 “生成模型“。

对于生成模型来说，有：

P (c ∣ x) = P ( x , c ) P ( x ) (4)

$P\left(c \mid x\right) = \frac{P\left(x,c\right)}{P\left(x\right)}\qquad(4)$ 又结合贝叶斯定理：

P (c ∣ x) = P ( x ∣ c ) P ( c ) P ( x ) (5)

$P\left(c \mid x\right) = \frac{P\left(x\mid c\right)P\left(c\right)}{P\left(x\right)}\qquad(5)$
<1> 类先验概率

P(c) $P(c)$ 为样本空间中各类样本所占的比例，依据大数定理，可以使用各类样本出现的频率来估计。
<2>估计类条件概率

P(x∣c) $P\left(x \mid c\right)$ 一种方法是假设其符合某种分布，然后再利用样本对该分布的参数

θc $\ \theta_c\$ 进行估计，常用的估计方法就是 极大似然估计。

朴素贝叶斯分类器

由公式(4)，(5)可知，贝叶斯决策的难点在于：类条件概率 $P\left(x \mid c\right)$ 是所有属性上的联合概率分布。朴素贝叶斯分类器假设所有的属性是条件独立的（注意不同于独立），那么公式(5)就可以转化为：

P (c ∣ x) = P ( c ) P ( x 1 , x 2 , \dots , x d | c ) P ( x ) = P ( c ) P ( x ) \prod i = 1 d P (x i ∣ c) \leftarrow (根 据 各 维 度 的 独 立 性 可 得) (6) = P ( c ) \prod d i = 1 P ( x i ∣ c ) \sum n j = 1 P ( x ∣ c j ) P ( c j ) \leftarrow (对 分 母 使 用 全 概 率 公 式 可 得) = P ( c ) \prod d i = 1 P ( x i ∣ c ) \sum n j = 1 P ( c j ) \prod d i = 1 P ( x i ∣ c ) \leftarrow (对 分 母 中 的 对 应 分 量 的 条 件 独 立 性 可 得)

$\begin{align} P\left(c \mid x\right) &=\frac{P\left(c\right)P\left(x_1,x_2,\cdots,x_d|c\right)}{P\left(x\right)} \\ &= \frac{P\left(c\right)}{P\left(x\right)}\prod_{i=1}^dP(x_i\mid c) \leftarrow(根据各维度的独立性可得) \qquad\qquad (6) \\ &=\frac{P\left(c\right)\prod_{i=1}^dP(x_i\mid c)}{\sum_{j=1}^nP\left(x\mid c_j\right)P(c_j)}\leftarrow(对分母使用全概率公式可得) \\ &=\frac{P\left(c\right)\prod_{i=1}^dP(x_i\mid c)}{\sum_{j=1}^nP(c_j)\prod_{i=1}^dP(x_i\mid c)}\leftarrow(对分母中的对应分量的条件独立性可得)\\ \end{align}$
在公式（6）中可知

P(x) $P(x)$ 与

x $x$ 所属的类别没有关系，也就是不论它属于哪个类别，在计算不同类别的后验概率的时候其值都是相等的。那么贝叶斯分类器的问题可以描述为：

y^(i) = arg max c j P (c j ∣ x) = arg max c j P (c j) \prod i = 1 d P (x i ∣ c j)

$\hat y_{(i)} =\arg \underset {c_j}\max P(c_j\mid x) = \arg \underset {c_j}\max P(c_j)\prod_{i=1}^dP(x_i\mid c_j)$
这就是我们所需要求解的贝叶斯分类器，我们通过训练数据学习获得参数

P(cj) $P(c_j)$ 和

P(xi∣cj) $P(x_i\mid c_j)$ 。参数的估计方法可以使用极大似然估计。

参数的极大似然估计

假设 $D_c$ 表示属于类别 $c$ 的样本个数， $D$ 表示所有训练样本的个数：

P (c j) = | D c j | | D | = \sum m i = 1 I { y ( i ) = c j } m (7)

$P(c_j) = \frac{|D_{c_j}|}{|D|}=\frac{\sum_{i=1}^m{\bf I}\{y^{(i)}=c_j\}}{m}\qquad(7)$
对于离散属性，假设属性

xi的取值可以为{xi1,xi2,⋯,xil} $x_i的取值可以为\{x_{i1},x_{i2},\cdots,x_{il}\}$ ：

P (x i l ∣ c j) = | D c j , x i l | | D c j | = \sum m k = 1 I { x i = x i l , y ( k ) = c j } \sum m k = 1 I { y ( k ) = c j } (8)

$P(x_{il}\mid c_j) = \frac{|D_{c_j,x_{il}}|}{|D_{c_j}|}=\frac{\sum_{k=1}^m{\bf I}\{x_i=x_{il},y^{(k)}=c_j\}}{\sum_{k=1}^m{\bf I}\{y^{(k)}=c_j\}}\qquad(8)$
对于连续属性：

P (x i ∣ c) = f (x i) (9)

$P(x_i\mid c) = f(x_i)\qquad(9)$

参数的贝叶斯估计

为了避免某些属性被未出现的属性值抹去,即可能出现某些属性取值的概率为0的情况。通常使用拉普拉斯修正来进行平滑计算,这样可以避免因训练样本的不充分而导致概率估值为零的情况发生。

P (c) = | D c | + 1 | D | + N ， N 表 示 类 别 的 数 目 (10)

$P(c) = \frac{|D_c|+1}{|D|+N}，N表示类别的数目\qquad(10)$

P^(x i ∣ c) = | D c , x i | + 1 | D c | + L i ， L i 表 示 第 i 维 属 性 能 所 能 取 值 的 个 数 (11)

$\hat P(x_i\mid c) = \frac{|D_{c,x_i}|+1}{|D_c|+L_i}，L_i 表示第i维属性能所能取值的个数\qquad(11)$

半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性的依赖关系而不是认为其全部是独立的，这样虽然不需要计算所有属性的联合概率分布，但也一定程度上反映了部分属性的关联性。

贝叶斯网

贝叶斯网也称为信念网，借助有向无环图(DAG)来刻画属性之间的依赖关系，并使用条件概率表(CPT)来描述属性的联合概率分布。

EM算法

在样本中，往往会发生属性值缺失的事情，也就是并不是所有样本的属性值都是完整的。那么对于这样的情况如何去估模型的参数呢？
我们将这种缺失信息的变量成为”隐变量“，令 $\mathbf X$ 表示属性值完整的变量， $\mathbf Z$ 表示隐变量， $\Theta$ 表示模型参数，那么对 $\Theta$ 做参数估计，采用极大似然估计可得：