机器学习笔记_贝叶斯分类器(IV)_半朴素贝叶斯分类器

最新推荐文章于 2024-08-04 23:46:49 发布

王先生的副业

最新推荐文章于 2024-08-04 23:46:49 发布

阅读量4k

点赞数

分类专栏：机器学习机器学习

本文链接：https://blog.csdn.net/uncle_gy/article/details/79107637

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

为什么需要半朴素贝叶斯分类器

1：后验概率 $P(c\mid\mathbf{x})$ 计算起来比较困难。
2：属性条件独立性假设在现实任务中往往很难成立。

半朴素贝叶斯分类器的基本思想

适当考虑一部分属性之间的相互依赖信息，从而既不需要进行联合概率计算，又不至于彻底忽略比较强的属性依赖关系。

常用策略_”独依赖估计”

方法：假设每个属性在类别之外最多仅依赖于一个其他属性

P (c ∣ x) \propto P (c) Π d i = 1 P (x i ∣ c, p a i)

$P(c\mid\mathbf{x})\varpropto P(c)\Pi_{i=1}^{d}P(x_i\mid c,pa_i)$
其中

pai $pa_i$ 为属性

xi $x_i$ 所依赖的属性，称为

xi $x_i$ 的父属性。此时，对每个属性

xi $x_i$ ,若其夫属性

pai $pa_i$ 已知，则可以采用类似

P^(x i ∣ c) = | D c , x i | + 1 | D c | + N i

$\hat{P}(x_i\mid c)=\dfrac{|D_{c,x_i}|+1}{|D_c|+N_i}$ 的办法来估计概率值

P(xi∣c,pai) $P(x_i\mid{c,pa_i})$ 于是问题就转换为如何确定每个属性的父属性，不同的做法将产生不同的独依赖分类器。

不同的独依赖分类器

NB

就是朴素贝叶斯分类器
这里写图片描述

SPODE

假设所有的属性都依赖于同一个属性，称为“超父”，然后通过交叉验证的方式来确定超父属性。由此产生了SPODE(Super-Parent ODE)方法。
这里写图片描述

TAN

TAN(Tree Augmented naive Bayes)在最大带权生成树（maximum weighted spanning tree）算法的基础上，通过下面的步骤将属性间的依赖关系简化为如图所示的树形结构：
这里写图片描述
1. 计算任意两个属性之间的条件互信息（conditional mutual information）

I (x i, x j ∣ y) = \sum x i, x j; c \in Y P (x i, x j ∣ c) log P ( x i , x j ∣ c ) P ( x i ∣ c ) P ( x j ∣ c )

$I(x_i,x_j\mid y)=\sum_{x_i,x_j;c\in\mathcal{Y}}P(x_i,x_j\mid c)\log\dfrac{P(x_i,x_j\mid c)}{P(x_i\mid c)P(x_j\mid c)}$
2. 以属性为结点构建完全图，任意两个结点之间的边权重重设为

I(xi,xj∣y) $I(x_i,x_j\mid y)$ ;
3. 构建此完全图的最大带权生成树，挑选根变量，将边置为有向边
4. 加入类别结点

y $y$ ,增加从

y $y$ 到每个属性的有向边。

条件互信息 $I(x_i,x_j\mid y)$ 刻画了属性 $x_i$ 和 $x_j$ 在已知类别的情况下的相关性，因此通过最大生成树算法，TAN实际上仅保留了强相关属性之间的依赖性。

AODE

AODE(Averaged One-Dependent Estimator)是一种基于集成学习机制、更为强大的独依赖分类器，与SPODE通过模型选择确定超父属性不同，AODE尝试将每个属性作为超父来构建SPODE。然后将这些具有足够训练数据支持的SPODE集成起来作为最终结果，即：

P (c ∣ x) \propto \sum i = 1 | D x i | \geq m' d P (c, x i) Π d j = 1 P (x i ∣ c, x i)

$P(c\mid\mathbf{x})\varpropto\sum_{\mathop{i=1}_{|D_{x_i}|\ge m'}}^{d} P(c,x_i)\Pi_{j=1}^{d}P(x_i\mid c,x_i)$
其中

Dxi $D_{x_i}$ 在第

i $i$ 个属性上取值为

xi $x_i$ 的样本的集合，

m′ $m'$ 为阈值或者常数，显然AODE需要估计

P(c,xi) $P(c,x_i)$ 和

P(xj∣c,xi) $P(x_j\mid c,x_i)$ 于是：

P^(c, x i) = | D c , x i | + 1 | D | + N i P^(x j ∣ c, x i) = | D c , x i , x j | + 1 | D c , x i | + N j

$\begin{aligned} \hat{P}(c,x_i)=\dfrac{|D_{c,x_i}|+1}{|D|+N_i}\\ \hat{P}(x_j\mid c,x_i)=\dfrac{|D_{c,x_i,x_j}|+1}{|D_{c,x_i}|+N_j}\\ \end{aligned}$
其中

Ni $N_i$ 是第

i $i$ 个属性可能的取值数，