机器学习——贝叶斯分类器

最新推荐文章于 2024-01-05 18:39:14 发布

蘑菇桑巴

最新推荐文章于 2024-01-05 18:39:14 发布

阅读量226

点赞数

分类专栏：机器学习文章标签：概率论机器学习人工智能

本文链接：https://blog.csdn.net/royole98/article/details/120550599

版权

4 篇文章 1 订阅

订阅专栏

本文概述了贝叶斯决策论的基本概念，重点介绍了朴素贝叶斯分类器的原理，包括条件风险、后验概率的计算以及生成式模型中的似然概率。同时，讲解了极大似然估计在模型训练中的作用，并展示了朴素贝叶斯分类器如何利用独立性假设简化计算。

摘要由CSDN通过智能技术生成

以下理论都是基于西瓜书中对贝叶斯分类器章节的个人理解与整理，如果有问题，也欢迎大家一起进行讨论。

对于贝叶斯决策论而言，我们希望可以得到一个使总体风险最小化的决策。那么对于风险 $R$ 的定义，有如下公式表示:

$R(c_i|x) = \sum_{j=1}^{N}(\lambda _{ij}P(c_j|x))$

公式样本 $x$ 被分类成 $c_i$ 的条件风险，而 $\lambda_{ij}$ 表示真实标记为 $c_j$ 的输入样本 $x$ 被误分类成 $c_i$ 的损失， $P(c_j|x)$ 表示后验概率， $N$ 是输入样本总数。那么贝叶斯分类器的优化目标就是使条件风险最小化。

在这样一种情况下，如何获取后验概率 $P(c|x)$ 即是机器学习模型需要学习到的东西。一般来说，这里有两种获取模式。第一种是判别式模型直接得到（BP神经网络、SVM。具体获取方法之后再补）。而对于生成式模型，通过我们概率论中的贝叶斯定理，可以将后验概率的获取转为如下公式：

$P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(c)P(x|c)}{P(x)}$

$P(c)$ 是先验概率（prior），就是不管输入如何，我只统计我最后分类结果出现的概率情况， $P(x)$ 和标签类别无关，所以我们在计算的时候不需要考虑，那么我们重点关注的便是似然概率 $P(x|c)$ （likelihood）。

假设概率 $P(x|c)$ 具有确定的形式并且被参数向量 $\theta_c$ ，那么我们训练模型的目标就是基于训练集优化找到最优参数 $\theta_c$ 。

极大似然估计就是通过训练数据采样估计概率分布参数。用 $D_c$ 表示训练集 $D$ 中属于第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，那么参数 $\theta_c$ 对于数据集 $D_c$ 的似然是：

$P(D_c|\theta_c)= \prod_{x\in D_c}P(x|\theta_c)$

由于连乘容易造成下溢，通常使用对数似然，将累乘转为累加：

$LL(\theta_c)=log P(D_c|\theta_c)=\sum_{x\in D_c}log P(x|\theta_c)$

优化目标是找到使损失函数最大的参数 $\theta_c$ 。

前面说到贝叶斯决策最大的难点在于似然概率的获取。那么为了解决这个问题，朴素贝叶斯分类器采用了“属性条件独立性假设”，那么后验概率公式可以改写成：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c)$

其中，d表示属性数目， $x_i$ 为 $x$ 在第 $i$ 个属性上的取值。

那么在已经做了属性条件独立的假设前提下，属性条件概率计算可以通过下式获得：

$P(x_i|c)=\frac{\left | D_{x_i,c} \right |}{\left | D_c \right |}$

其中， $D_{x_i,c}$ 表示 $D_c$ 中在第 $i$ 个属性上取值为 $x_i$ 的样本组成的集合。

贝叶斯网也叫做信念网（belief network），是一种经典的概率图模型。

若网络结构一直，那么属性之间的依赖关系也是已知，那么贝叶斯网的学习过程通过对训练样本计数计算条件概率。然而，实际中贝叶斯网络的的结构并不事先知道，那么我们就需要根据训练数据来找到最“恰当的”网络结构。评分搜索是解决这一问题的常用方法（类似于损失函数）。

常用的评分函数通常基于信息论，学习目标是找到一个能以最短编码长度描述训练数据的模型。那么给定训练集 $D = \left \{ x_1, x_2, ..., x_m\right \}$ ，对于贝叶斯网 $B=< G, \Theta >$ 的评分函数可以写成：

$s(B|D)=f(\theta)\left | B \right | - LL(B|D)$

其中， $f(\theta)$ 是每个参数 $\theta$ 所需编码为数， $\left | B \right |$ 是贝叶斯网的参数个数

关注

专栏目录