机器学习(7.贝叶斯分类器)

七.贝叶斯分类器

1.贝叶斯决策论

贝叶斯决策论 (Bayesian decision theory) 是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记*。

在这里插入图片描述

据此产生贝叶斯判定准则。

2.贝叶斯判定准则

为最小化总体风险 R ( h ) R(h) R(h) ,只需在每个样本上选择那个能使条件风险 R ( c ∣ x ) R(c|\mathbf x) R(cx)最小的类别标记,即 h ∗ ( x ) = a r g m i n c ∈ Y R ( c ∣ x ) h^*(x)=\mathop{arg min}_{c∈\mathcal Y} R(c|\mathbf x) h(x)=argmincYR(cx)其中, h ∗ h^* h为贝叶斯最优分类器。

简单一句话概括就是:最大化后验概率->最小化条件风险。

在这里插入图片描述

**从贝叶斯决策论(概率框架)的角度:机器学习要做的就是基于有限的训练样本集尽可能准确地估计出后验概率 P ( c ∣ x ) P(c |\mathbf x) P(cx)。**主要包括两种策略,对应两种模型:生成式模型和判别式模型。

3.生成式模型(generative models)和判别式模型(discriminative models)

在这里插入图片描述

判别式模型:给定 x \mathbf x x ,直接建模 P ( c ∣ x ) P(c|\mathbf x) P(cx)来预测 c c c,如决策树、BP神经网络、支持向量机等;

生成式模型:先对联合概率 P ( x , c ) P(\mathbf x,c) P(x,c)建模,然后再由此推导得出 P ( c ∣ x ) P(c∣\mathbf x) P(cx),公式如下: P ( c ∣ x ) = P ( x , c ) P ( x ) P(c∣\mathbf x)=\frac{P(\mathbf x,c)}{P(\mathbf x)} P(cx)=P(x)P(x,c)联合概率很难求,通过贝叶斯定理求解,转化后公式为: P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c∣\mathbf x)=\frac{P(c)P(\mathbf x|c)}{P(\mathbf x)} P(cx)=P(x)P(c)P(xc)因此,需要求解: P ( c ) 、 P ( x ) P(c)、P(\mathbf x) P(c)P(x)以及 P ( x ∣ c ) P(\mathbf x|c) P(xc)

  • 求解 P ( c ) P(c) P(c)

    其中,类先验概率 P ( c ) P(c) P(c)表达了样本空间中各类样本所占的比例。根据大数定律(用频率近似估计概率),当训练集包含充足的独立同分布样本时 P ( c ) P(c) P(c)可通过各类样本出现的频率来进行估计: P ( c ) = ∣ D c ∣ D P(c)=\frac{|D_c|}{D} P(c)=DDc其中, D c D_c Dc表示训练集 D D D中类别标记为 c c c的样本集合, ∣ D c ∣ |D_c| Dc表示集合 ∣ D c ∣ |D_c| Dc的样本总数。

  • 求解 P ( x ) P(\mathbf x) P(x)

    事实上,因为训练集一旦确定,对所有类别来说 P ( x ) P(\mathbf x) P(x)都相同, P ( x ) P(\mathbf x) P(x)是一个常数,在求解 h ∗ ( x ) = a r g m a x c ∈ Y P ( c ∣ x ) h^*(x)=\mathop{arg max}_{c∈\mathcal Y} P(c|\mathbf x) h(x)=argmaxcYP(cx)时,可以舍去

  • 求解 P ( x ∣ c ) P(\mathbf x|c) P(xc)

    生成式模型中对 P ( x ∣ c ) P(\mathbf x|c) P(xc)建模是最困难的一点。主要困难在于类条件概率 P ( x ∣ c ) P(\mathbf x|c) P(xc)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。

    用不同的方法求解 P ( x ∣ c ) P(\mathbf x|c) P(xc)可以有不同的模型。

4.朴素贝叶斯分类器

在这里插入图片描述

在这里插入图片描述

朴素贝叶斯分类器:朴素贝叶斯基于属性条件独立性假设从而简单建模 P ( x ∣ c ) P(\mathbf x|c) P(xc)

假设每个特征相互独立,则有:

P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c∣\mathbf x)=\frac{P(c)P(\mathbf x|c)}{P(\mathbf x)}=\frac{P(c)}{P(\mathbf x)}\prod_{i=1}^dP(x_i|c) P(cx)=P(x)P(c)P(xc)=P(x)P(c)i=1dP(xic)

其中, d d d为属性数目, x i x_i xi x \mathbf x x在第 i i i个属性上的取值。

再基于贝叶斯判定准则:

h ∗ ( x ) = a r g m a x c ∈ Y P ( c ∣ x ) = a r g m a x c ∈ Y P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) h^*(x)=\mathop{arg max}_{c∈\mathcal Y} P(c|\mathbf x)=\mathop{arg max}_{c∈\mathcal Y}\frac{P(c)}{P(\mathbf x)}\prod_{i=1}^dP(x_i|c) h(x)=argmaxcYP(cx)=argmaxcYP(x)P(c)i=1dP(xic)

由于对所有类别来说 P ( x ) P(\mathbf x) P(x)都相同,略去,因此,最终求得 c ′ c' c使得下式 h n b h_{nb} hnb最大。

h n b ( x ) = a r g m a x c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{nb}(\mathbf x)=\mathop{arg max}_{c∈\mathcal Y}P(c)\prod_{i=1}^dP(x_i|c) hnb(x)=argmaxcYP(c)i=1dP(xic)

计算

计算 P ( c ) P(c) P(c)

P ( c ) P(c) P(c)利用大数定律估计,前面已经给出了求解方式。

计算 P ( x i ∣ c ) P(x_i|c) P(xic)

在这里插入图片描述

可以看到:

  1. 如果属性 i i i离散属性,仍然使用大数定律求解 P ( x i ∣ c ) P(x_i|c) P(xic);同样有拉普拉斯修正后的公式为: P ^ ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D c ∣ + N i \hat P(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i} P^(xic)=Dc+NiDc,xi+1其中 N i N_i Ni表示第 i i i个属性可能的取值数。
  2. 如果属性 i i i连续属性,先假设符合某种分布(比如,正态分布),利用某种方法估计分布的参数(比如极大似然估计-正态分布-需要求解均值、方差)。假设不同的分布,模型性能可能不同。

eg

在这里插入图片描述

5.半朴素贝叶斯分类器

半朴素贝叶斯分类器:适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联 合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

独依赖估计(ODE):假设每个属性在类别之外最多依赖于一个其他属性
即:
P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P(c|\mathbf x) \varpropto P(c)\prod_{i=1}^dP(x_i|c,pa_i) P(cx)P(c)i=1dP(xic,pai)
其中, p a i pa_i pai为属性 x i x_i xi所依赖的属性,称为 x i x_i xi的父属性。

解释
∝ \varpropto (正比符号): ∵ P ( x ) P(\mathbf x) P(x)省去了

超父独依赖估计Super-Parent ODE依赖于同一个超父属性,因此把超父属性提出去以后,其他各个属性相互独立 P ( c ∣ x ) = P ( x , c ) P ( x ) = P ( c , x i ) P ( x 1 , . . . x i − 1 , x i + 1 , . . . , x d ) P ( x ) ∝ P ( c , x i ) P ( x 1 , . . . x i − 1 , x i + 1 , . . . , x d ∣ c , x i ) = P ( c , x i ) ∏ j = 1 d P ( x j ∣ c , x i ) \begin{aligned} P(c|\mathbf x)&=\frac{P(\mathbf x,c)}{P(\mathbf x)} =\frac{P(c,x_i)P(x_1,...x_{i-1},x_{i+1},...,x_d)}{P(\mathbf x)} \\&\varpropto P(c,x_i)P(x_1,...x_{i-1},x_{i+1},...,x_d|c,x_i) \\&=P(c,x_i)\prod_{j=1}^dP(x_j|c,x_i) \end{aligned} P(cx)=P(x)P(x,c)=P(x)P(c,xi)P(x1,...xi1,xi+1,...,xd)P(c,xi)P(x1,...xi1,xi+1,...,xdc,xi)=P(c,xi)j=1dP(xjc,xi)
其中, x i x_i xi是超父属性, P ( x i ∣ c , x i ) = 1 P(x_i|c,x_i)=1 P(xic,xi)=1

TAN (Tree Augmented naive Bayes)

在这里插入图片描述

AODE (Averaged One-Dependent Estimator)

基于集成学习机制、更为强大的独依赖分类器。与SPODE通过模型选择确定超父属性不同,AODE尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支撑的( ∣ D x i ∣ ≥ m ′ |D_{x_i}|≥m' Dxim m ′ m' m为阈值常数,默认为30)SPODE集成起来作为最终结果。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值