[DataAnalysis]贝叶斯分类器

假设有N种可能的类别标记,即y=\{c_1,c_2.c_3,...c_n\},\lambda _{ij}是将真实标记为c_i的样本误分类为c_j的所产生的损失。

基于贝叶斯概率公式:P(c|x)=\frac{P(c)P(x|c)}{P(x)}

其中P(c)是类“先验”概率,P(x|c)是样本x相对于类标记c的类条件概率。

朴素贝叶斯分类器

使用贝叶斯公式来估计后验概率P(c|x)的主要困难是类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本中直接估计得到。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。贝叶斯公司改写成:

P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c)

其中d为属性数目,x_ix在第i个属性上的取值。因为对于所有类别来说,P(x)相同,因此贝叶斯判定准则:

h_nb(x)=arg \max_{c\in \gamma }P(c)\prod _{i=1}^{d}P(x_i|c),这就是朴素贝叶斯分类器的表达式

求解过程

1、类先验概率

D_c表示训练集D中第c类样本组成的集合,若有充分的独立同分布样本,则可容易估计出类先验概率

P(c)=\frac{|D_c|}{|D|}

2、条件概率P(x_i|c)

对离散属性来说,令D_{c,x_i}表示D_c中在第i个属性上取值为x_i的样本组成的集合,则条件概率P(x_i|c)可估计为

P(x_i|c)=\frac{|D_{c,x_i}|}{|D|}

对连续属性可考虑概率密度函数,假定p(x_i|c)\sim N(\mu _{c,i},\sigma _{c,i}^2)

半朴素贝叶斯分类器

属性独立条件常常不能成立。半朴素贝叶斯的基本想法是适当考虑一部分属性间的相互依赖关系信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略。即假设每个属性在类别之外最多仅依赖于一个其他属性

P(c|x)\propto P(c)\prod _{i=1}^{d}P(x_i|c,pa_i)

其中pa_i为属性x_i所依赖的属性,称为x_i的父属性。于是问题的关键转化为如何求每个属性的父属性,不同的做法产生不同的独依赖分类器。下面介绍几种简单的方法:

(1)SPODE

假设所有的属性都依赖于同一个属性,称为“超父”。然后通过交叉验证等模型选择方法确定超父属性。

(2)TAN

把属性之间依赖关系转化为树形结构

(3)AODE

把每个属性作为超父,然后集合起来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值