[DataAnalysis]贝叶斯分类器

最新推荐文章于 2023-11-18 10:36:22 发布

TOMOCAT

最新推荐文章于 2023-11-18 10:36:22 发布

阅读量2.7w

点赞数

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TOMOCAT/article/details/82934726

版权

数据分析专栏收录该内容

47 篇文章 2 订阅

订阅专栏

假设有种可能的类别标记，即 $y=\{c_1,c_2.c_3,...c_n\}$ , $\lambda _{ij}$ 是将真实标记为 c_i 的样本误分类为 $c_j$ 的所产生的损失。

基于贝叶斯概率公式： $P(c|x)=\frac{P(c)P(x|c)}{P(x)}$

其中 P(c) 是类“先验”概率， P(x|c) 是样本x相对于类标记 $c$ 的类条件概率。

朴素贝叶斯分类器

使用贝叶斯公式来估计后验概率 P(c|x) 的主要困难是类条件概率 P(x|c) 是所有属性上的联合概率，难以从有限的训练样本中直接估计得到。为避开这个障碍，朴素贝叶斯分类器采用了“属性条件独立性假设”：对已知类别，假设所有属性相互独立。贝叶斯公司改写成：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c)$

其中为属性数目， x_i 为在第个属性上的取值。因为对于所有类别来说， $P(x)$ 相同，因此贝叶斯判定准则：

$h_nb(x)=arg \max_{c\in \gamma }P(c)\prod _{i=1}^{d}P(x_i|c)$ ，这就是朴素贝叶斯分类器的表达式

求解过程：

1、类先验概率

令 D_c 表示训练集中第 $c$ 类样本组成的集合，若有充分的独立同分布样本，则可容易估计出类先验概率

$P(c)=\frac{|D_c|}{|D|}$

2、条件概率 $P(x_i|c)$

对离散属性来说，令 $D_{c,x_i}$ 表示 D_c 中在第个属性上取值为 x_i 的样本组成的集合，则条件概率 $P(x_i|c)$ 可估计为

$P(x_i|c)=\frac{|D_{c,x_i}|}{|D|}$

对连续属性可考虑概率密度函数，假定 $p(x_i|c)\sim N(\mu _{c,i},\sigma _{c,i}^2)$

半朴素贝叶斯分类器

属性独立条件常常不能成立。半朴素贝叶斯的基本想法是适当考虑一部分属性间的相互依赖关系信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略。即假设每个属性在类别之外最多仅依赖于一个其他属性。

$P(c|x)\propto P(c)\prod _{i=1}^{d}P(x_i|c,pa_i)$

其中 $pa_i$ 为属性 x_i 所依赖的属性，称为 x_i 的父属性。于是问题的关键转化为如何求每个属性的父属性，不同的做法产生不同的独依赖分类器。下面介绍几种简单的方法：

（1）SPODE

假设所有的属性都依赖于同一个属性，称为“超父”。然后通过交叉验证等模型选择方法确定超父属性。

（2）TAN

把属性之间依赖关系转化为树形结构

（3）AODE

把每个属性作为超父，然后集合起来

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。