机器学习——第七章 贝叶斯分类器

1 贝叶斯决策论

对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有N中可能的类别标记, y = { c 1 , c 2 , . . . c N } y=\{c_1,c_2,...c_N\} y={c1,c2,...cN} λ i j \lambda_{ij} λij是将一个真实标记为 c j c_j cj的样本误分类为 c i c_i ci所参数的损失。基于后验概率 P ( c i ∣ x ) P(c_i|x) P(cix)可获得将样本x分类为 c i c_i ci所产生的期望损失。任务是寻找一个判断准则,以最小化总体风险
在这里插入图片描述
贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择哪个能使条件风险 R ( c ∣ x ) R(c|x) R(cx)最小的类别标记,即
在这里插入图片描述
h ∗ h^* h称为贝叶斯最优分类器,对应的总体风险 R ( h ∗ ) R(h^*) R(h)称为贝叶斯风险。

使用贝叶斯判断准则来最小化决策风险,需要获得后验概率,取得后验概率有两种策略:
1.给定x,通过直接建模p(c|x)来预测c,得到判别式模型。
2.先对联合概率分布p(x,c)建模,然后再由此获得p(c|x),得到生成式模型。

2 极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计.具体地,记关于类别c的类条件概率为 P ( x ∣ c ) P(x|c) P(xc),假设 P ( x ∣ c ) P(x|c) P(xc)具有确定的形式并且被参数向量 θ c \theta _c θc。唯一确定,则我们的任务就是利用训练集 D估计参数 θ c \theta _c θc.为明确起见,我们将 P ( x ∣ c ) P(x|c) P(xc)记为 P ( x ∣ θ c ) P(x|\theta _c) P(xθc)

对于参数估计有两个学派提出了不同的解决方案:频率主义学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值;贝叶斯学派则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
D c D_{c} Dc 表示训练集 D 中第 c 类样本组成的集合, 假设这些样本是独立同分布的, 则参数 θ c \boldsymbol{\theta}_{c} θc 对于数据集 D c D_{c} Dc 的似然是

P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P\left(D_{c} \mid \boldsymbol{\theta}_{c}\right)=\prod_{\boldsymbol{x} \in D_{c}} P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{c}\right) P(Dcθc)=xDcP(xθc)

通常使用对数似然来代替连乘操作,
在这里插入图片描述
此时最大似然估计是:
在这里插入图片描述
注意:这种参数化的方法虽能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。

3 朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率的主要困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计而得。
朴素贝叶斯分类器采用属性条件独立性假设,对已知类别,假设所有属性相互独立。
在这里插入图片描述
贝叶斯判定准则有:
在这里插入图片描述
使用拉普拉斯修正可在估计概率值时进行平滑操作。

4 半朴素贝叶斯分类器

基本想法:适当考虑一部分属性间的相互依赖信息,从而不需要进行完全联合概率计算,也不至于彻底忽略了比较强的属性依赖关系。
独依赖估计(ODE)是一总常用策略,即假设每个属性再类别之外最多仅依赖于一个其他属性,
在这里插入图片描述
p a i pa_i pai为属性 x i x_i xi所以来的属性,称为其父属性。问题的关键在于如何确定每个属性的父属性,不同做法产生不同独依赖分类器。
在这里插入图片描述
最直接的做法是假设所有属性都依赖于同一个属性,称为超父,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE。
TAN是在最大带权生成树算法的基础上,通过以下步骤将属性间依赖关系约简为树形结构:
1.计算任意两个属性间的条件互信息。
2.以属性为节点构造完全图。
3.构建此完全图的最大带权生成树,挑选根变量,边设置为有向。
4.加入类别结点y,增加从y到每个属性的有向边。

AODE是一种基于集成学习机制,更为强大的独依赖分类器,它尝试将每个属性作为超父构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果,即
在这里插入图片描述

5 贝叶斯网

借助有向无环图来刻画属性间依赖关系,使用条件概率表来描述属性的联合概率分布。
一个贝叶斯网B由结构G和参数 Θ \Theta Θ两部分构成,即 B = [ G , Θ ] B=[G,\Theta] B=[G,Θ]

5.1 结构

贝叶斯网结构有效地表达了属性间的条件独立性,给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,于是 B = [ G , Θ ] B=[G,\Theta] B=[G,Θ]将属性 x 1 , x 2 , . . . x d x_1,x_2,...x_d x1,x2,...xd的联合概率分布定义为:
在这里插入图片描述
贝叶斯网中三个变量之间的典型依赖关系如下图:
在这里插入图片描述
道德图的生成:
1.找出有向图中的所有V型结构,在V型结构的两个父结点之间加上一条无向边。
2.将所有有向边改为无向边。

5.2 学习

贝叶斯网学习的首要任务就是根据训练数据集来找出结构最“恰当”的贝叶斯网.“评分搜索”是求解这一问题的常用办法.具体来说,我们先定义一个评分函数,以此来评估贝叶斯网与训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网。常用评分函数通常基于信息论准则,此类准则将学习问题看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型。
给定训练集D,贝叶斯网 B = [ G , Θ ] B=[G,\Theta] B=[G,Θ]在D上的评分函数可写为:
s ( B ∣ D ) = f ( θ ) ∣ B ∣ − L L ( B ∣ D ) s(B|D)=f(\theta)|B|-LL(B|D) s(BD)=f(θ)BLL(BD),其中,|B|是贝叶斯网的参数个数, f ( θ ) f(\theta) f(θ)表示描述每个参数 θ \theta θ所需的字节数,
在这里插入图片描述
是贝叶斯网B的对数似然。
f ( θ ) = 1 f(\theta)=1 f(θ)=1,得到AIC评分函数。
f ( θ ) = 1 2 l o g m f(\theta)=\frac{1}{2}logm f(θ)=21logm,得到BIC评分函数。

5.3 推断

贝叶斯网训练好之后就能用来回答“查询”(query),即通过一些属性变量的观测值来推测其他属性变量的取值。
推断:通过已知变量观测值来推测待查询变量的过程。
证据:已知变量观测值。

现实中,贝叶斯网的近似推断常使用吉布斯采样完成
在这里插入图片描述

6 EM算法

未观测变量的学名是“隐变量”(latent variable).令X表示已观测变量集,Z表示隐变量集, Θ \Theta Θ表示模型参数.若欲对 Θ \Theta Θ做极大似然估计,则应最大化对数似然
L L ( Θ ∣ X , Z ) = l n P ( X , Z ∣ Θ ) LL(\Theta|X,Z)=lnP(X,Z|\Theta) LL(Θ∣X,Z)=lnP(X,Z∣Θ)
通过对Z计算期望,来最大化已观测数据的对数边际似然
在这里插入图片描述

EM算法步骤:以初始值 Θ 0 \Theta^0 Θ0为起点,迭代执行以下步骤直到收敛
1.基于 Θ t \Theta^t Θt推断隐变量Z的期望,记为 Z t Z^t Zt
2.基于已观测变量X和 Z t Z^t Zt对参数 Θ \Theta Θ做极大似然估计,记为 Θ t + 1 \Theta^{t+1} Θt+1

  • 27
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值