第七章贝叶斯分类器

最新推荐文章于 2020-10-15 15:35:08 发布

July_Wander

最新推荐文章于 2020-10-15 15:35:08 发布

阅读量568

点赞数 1

分类专栏：机器学习西瓜书学习笔记学习报告

本文链接：https://blog.csdn.net/July_Wander/article/details/83385217

版权

学习报告同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

西瓜书学习笔记

1 篇文章 0 订阅

订阅专栏

第七章贝叶斯分类器

贝叶斯决策论：概率框架下实施决策的基本方法；对分类任务来说，在所有相关概率都己知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯判定准则: 为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记。

欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P(c|x)。然而，在现实任务中这通常难以直接获得，从这个角度来看，机器学习的主要任务就是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。

估计后验概率P(c|x)主要有两种策略：1）判别式模型；2）生成式模型；

类"先验"概率P(c): 类先验概率P(c)表达了样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的独立同分布样本时，P(c)可通过各类样本出现的频率来进行估计。

类条件概率P(x|c) :样本x相对于类标记c 的类条件概率，或称为"似然"；涉及到关于x所有属性的联合概率，直接根据样本出现的频率来估计会很困难。

P(x) 是用于归一化的"证据"因子，对给定样本x ，证据因子P(x) 与类标记无关，因此估计P(c|x)的问题就转化为如何基于训练数据D来估计先验P(c) 和似然P(x|c).

极大似然估计:估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计.

概率模型的训练过程就是参数估计过程；

极大似然估计是试图在θc所有可能的取值中，找到一个能使数据出现的"可能性"最大的值.

朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率P(cIx) 的主要用难在于：类条件概率P(xIc) 是所有属性上的联合概率，难以从有限的训练样本直接估计而得。为避开这个障碍，朴素贝叶斯分类器采用了"属性条件独立性假设"：对已知类别，假设所有属性相互独立。换言之，假设每个属性独立地对分类结果发生影响。

朴素贝叶斯分类器的训练过程：基于训练集来估计类先验概率，并为每个属性估计条件概率。

半朴素贝叶斯分类器

基于"属性条件独立性假设"，对属性条件独立性假设进行一定程度的放松，由此产生了一类称为"半朴素贝叶斯分类器"的学习方法。

基本想法是适当考虑一部分属性问的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系；

"独依赖估计" (One-Dependent Estimator，简称ODE)是半朴素贝叶斯分类器最常用的一种策略；顾名思议，所谓"独依赖"就是假设每个属性在类别之外最多仅依赖于一个其他属性；

最直接的做法是假设所有属性都依赖于同一个属性，称为"超父"(supermparent) ，然后通过交叉验证等模型选择方法来确定超父属性，由此形成了SPODE (Super-Parent ODE)方法.

将属性条件独立性假设放松为独依赖假设可能获得泛化性能的提升

贝叶斯网

贝叶斯网(Bayesian network)亦称"信念网" (belief network) ，它借助有向无环图(Directed Acyclic Graph，简称DAG)来刻画属性之间的依赖关系，并使用条件概率表(Conditional Probability Table ，简称CPT)来描述属性的联合概率分布。

一个贝叶斯网B由结构G和参数Θ两部分构成，即B=<G,Θ>.

1)网络结构G是一个有向无环图，其每个结点对应一个属性，若两个属性有直接依赖关系，则它们由一条边连接起来；

2)参数Θ定量描述了这种依赖关系。

贝叶斯网结构有效地表达了属性间的条件独立性；给定父结点集，贝叶斯网假设每个属性与它的非后裔属性独立。

贝叶斯网中三个变量之间的典型依赖关系 : 1)同父结构 2)V型结构 3)顺序结构

贝叶斯网学习的首要任务就是根据训练数据集来找出结构最"恰当"的贝叶斯网，"评分搜索"是求解这一问题的常用办法；具体来说，先定义一个评分函数(score function) ，以此来评估贝叶斯网与训练数据的契合程度，然后基于这个评分函数来寻找结构最优的贝叶斯网。

常用评分函数通常基于信息论准则，此类准则将学习问题看作一个数据压缩任务，学习的目标是找到一个能以最短编码长度描述训练数据的模型，此时编码的长度包括了描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度；对贝叶斯网学习而言，模型就是一个贝叶斯网，同时，每个贝叶斯网描述了一个在训练数据上的概率分布，自有一套编码机制能使那些经常出现的样本有更短的编码；于是，我们

应选择那个综合编码长度(包括描述网络和编码数据)最短的贝叶斯网，这就是"最小描述长度" (Minimal DescriptionLength，简称MDL) 准则。

从所有可能的网络结构空间搜索最优贝叶斯网结构是一个NP问题，难以快速求解。有两种常用的策略能在有限时间内求得近似解：

1）贪心法：例如从某个网络结构出发，每次调整一条边（增、删、调方向），直到评分函数不再降低为止；

2）通过给网络结构施加约束来削减搜索空间：例如将网路结构限定为树形结构等。

贝叶斯网训练好之后就能用来:

"查询" (query)：即通过一些属性变量的观测值来推测其他属性变量的取值；

"推断" (inference) ：通过已知变量观测值来推测待查询变量的过程；

"证据" (evidence) ：己知变量观测值。

最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率，但是"精确推断"己被证明是 NP 难的，当网络结点较多、连接稠密时?难以进行精确推断，此时需借助"近似推断"，通过降低精度要求，在有限时间内求得近似解。.在现实应用中，贝叶斯网的近似推断常使用一种随机采样方法来完成，即吉布斯采样。

EM算法

在前面的讨论中，我们一直假设训练样本所有属性变量的值都已被观测到，即训练样本是"完整"的；但在现实应用中往往会遇到"不完整"的训练样本，如训练样本的某些属性数据未知，在这种存在未观测变量的情形下，是否仍能对模型参数进行估计呢？

未观测变量的学名是"隐变量" (latent variable).

EM (Expectation-Maximization) 算法是常用的估计参数隐变量的利器，它是一种迭代式的方法，其基本想法是：

若参数Θ己知，则可根据训练数据推断出最优隐变量Z 的值(E 步) ；

反之，若Z的值已知，则可方便地对参数Θ做极大似然估计(M 步) .

简单来说，EM算法使用两个步骤交替计算：

第一步是期望E步，利用当前估计的参数值来计算对数似然的期望值；

第二步是最大化M步，寻找能使E步产生的似然期望最大化的参数值。然后新得到的参数值重新被用于E步……直至收敛到局部最优解。

隐变量估计问题也可通过梯度下降等优化算法求解，但由于求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦。而EM算法则可看作一种非梯度优化方法。

EM算法可以看作用坐标下降法（coordinate descent）来最大化对数似然下界的过程。

贝叶斯分类器(Bayes Classifier)与一般意义上的"贝叶斯学习" (Bayesian Learning) 有显著区别，前者是通过最大后验概率进行单点估计，后者则是进行分布估计.

贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。其分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

July_Wander

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第七章贝叶斯分类器

第七章贝叶斯分类器贝叶斯决策论：概率框架下实施决策的基本方法；对分类任务来说，在所有相关概率都己知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。贝叶斯判定准则: 为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记。欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P(c|x)。然而，在现实任务中这通常难以直...
复制链接

扫一扫