【机器学习西瓜书学习笔记——贝叶斯分类器】

第七章 贝叶斯分类器

7.1贝叶斯决策论

贝叶斯判定准则

假设有N种可能的类别标记,y={c1,c2,…,cn},x 为样本。基于后验概率将样本 x x x分到第 i i i类的条件风险为: R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j=1}^{N} \lambda _{ij}P(c_j|x) R(cix)=j=1NλijP(cjx)

为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即 h ∗ ( x ) = a r g m i n   R ( c ∣ x ) h^*(x)=arg min\space R(c|x) h(x)=argmin R(cx)

  • h ∗ ( x ) h^*(x) h(x)被称为贝叶斯最优分类器,与之对应的总体风险被称为贝叶斯风险。

  • 反映了通过机器学习所能产生的模型精度的理论上限。

两种基本策略

判别式模型

思路:直接建模 P ( c ∣ x ) P(c|x) P(cx)

代表:决策树、BP神经网络、SVM

生成式模型

思路:先建模联合概率分别 P ( x , c ) P(x,c) P(x,c),再计算 P ( c ∣ x ) P(c|x) P(cx)

P ( c ∣ x ) = P ( x , c ) P ( x ) P(c|x)=\frac{P(x,c)}{P(x)} P(cx)=P(x)P(x,c)

代表:贝叶斯分类器

贝叶斯定理

公式: P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|x)=\frac{P(c)P(x|c)}{P(x)} P(cx)=P(x)P(c)P(xc)
其中, P ( c ∣ x ) P(c|x) P(cx)为后验概率,即看到“结果”后修正的概率。
P ( x ∣ c ) P(x|c) P(xc)类标记 c c c相对于样本 X X X的“类条件概率”,或称为“似然”。
P ( c ) P(c) P(c)为先验概率,样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律)。
P ( X ) P(X) P(X)为“证据”因子,与类标记无关。

7.2极大似然估计

估计概率的常用策略:先假定其具有某种确定的概率分布形式,再基于训练样本对参数估计。

P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P(D_c|\theta_c)=\prod_{x\in D_c} P(x|\theta _c) P(Dcθc)=xDcP(xθc)

使用对数似然: L L ( θ c ) = l o g P ( D c ∣ θ c ) = ∑ x ∈ D c l o g P ( x ∣ θ c ) LL(\theta_c)=logP(D_c|\theta_c)=\sum_{x\in D_c} logP(x|\theta _c) LL(θc)=logP(Dcθc)=xDclogP(xθc)

θ c \theta_c θc的极大似然估计为:$\hat{\theta_c}=arg\space maxLL(\theta_c) $

7.3朴素贝叶斯分类器

估计后验概率的主要困难:所有属性上的联合概率分布难以从有限训练样本估计获得

基本思路:属性条件独立性假设

$P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P©}{P(x)}\prod_{i=1}^{d}P(x_i|c) $

由于对所有类别来说 P ( x ) P(x) P(x)相同,于是 h n b ( x ) = a r g   m a x P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{nb}(x)=arg\space maxP(c)\prod_{i=1}^{d}P(x_i|c) hnb(x)=arg maxP(c)i=1dP(xic)

估计先验概率 P ( c ) : P ( c ) = ∣ D c ∣ ∣ D ∣ P(c):P(c)=\frac{\left |D_c \right | }{\left |D \right | } P(c):P(c)=DDc

估计类条件概率 P ( x ∣ c ) P(x|c) P(xc):

离散型:令 D c , x i D_{c,xi} Dc,xi表示 D c D_c Dc中第 i i i哥属性上取值为 x i x_i xi的样本组成的集合,则 P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P(x_i|c)=\frac{\left |D_{c,xi} \right | }{\left |D_c \right | } P(xic)=DcDc,xi

连续型:假定概率密度函数 p ( x i ∣ c ) ∼ N ( μ c , i , σ c , i 2 ) p(x_i|c)\sim N(\mu_{c,i},{\sigma}^2_{c,i}) p(xic)N(μc,i,σc,i2)

p ( x i ∣ c ) = 1 2 π σ c , i e x p ( − ( x i − μ c , i ) 2 2 σ c , i 2 ) p(x_i|c)=\frac{1}{\sqrt{2\pi} \sigma _{c,i}}exp(-\frac{(x_i-\mu _{c,i})^2}{2\sigma ^2_{c,i}}) p(xic)=2π σc,i1exp(2σc,i2(xiμc,i)2)

拉普拉斯修正

本质:给频率表中的每个计数加上一个较小的数,保证每一类中每个特征发生概率非零。

7.4半朴素贝叶斯分类器

为什么需要半朴素贝叶斯分类器

  • 后验概率P(c∣x)𝑃(𝑐∣𝑥)计算起来比较困难。
  • 属性条件独立性假设在现实任务中往往很难成立。

基本思想

适当考虑一部分属性之间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略比较强的属性依赖关系。

常用策略——独依赖估计

方法:假设每个属性在类别之外最多仅依赖于一个其他属性
P ( c ∣ x ) ∝ P ( c ) Π d i = 1 P ( x i ∣ c , p a i ) P(c∣x)∝P(c)Πdi=1P(xi∣c,pai) P(cx)P(c)Πdi=1P(xic,pai)

其中 p a i pai pai为属性 x i xi xi所依赖的属性,称为 x i xi xi的父属性。此时,对每个属性 x i xi xi,若其夫属性 p a i pai pai已知,则可以采用类似
P ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D c ∣ + N i P^(xi∣c)=\frac{|Dc,xi|+1}{|Dc|+Ni} P(xic)=Dc+NiDc,xi+1
的办法来估计概率值𝑃(𝑥𝑖∣𝑐,𝑝𝑎𝑖)
于是问题就转换为如何确定每个属性的父属性,不同的做法将产生不同的独依赖分类器。

不同的独依赖分类器

NB
SPODE
TAN
AODE

7.5 贝叶斯网

定义

  • 贝叶斯网络,又称信念网络,或有向无环图模型,是一种系统地描述随机变量之间关系的语言。

  • DAG中节点表示随机变量,边表示变量之间的依赖关系。

  • 条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。

目的

旨在解决不确定性推理问题

贝叶斯网络推理

推理过程的实现方法:

  • 采样推理——随机抽样
  • 变量消除推理
  • 精准推理——小规模的贝叶斯网络(枚举法或动态规划)
  • 近似推理——大规模的贝叶斯网络(变分推断或马尔可夫链蒙特卡洛法)

贝叶斯网络学习

参数学习

定义:在已知贝叶斯网络结构的情况下,从数据中学习网络中节点的条件概率分布参数的过程。

实现方式:最大似然估计、贝叶斯估计等方法来实现。

结构学习

定义:从数据中学习贝叶斯网络的结构的过程。

目标:发现最优的网络结构,使得网络能够最好地表示数据之间的依赖关系。

实现方法:搜索算法(如贪婪搜索、爬山算法)、约束优化方法(如评分函数、信息准则)。

7.6 EM算法

定义

从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。

步骤

①期望(E)步,利用当 前估计的参数值来计算对数似然的期望值;

②最大化(M)步,寻找能使 EM 算法的收敛性分析 E步产生的似然期望最大化的参数值.

③新得到的参数值重新被用于E步,直至收敛到局部最优解.

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值