贝叶斯分类器笔记

贝叶斯分类器的基本思维

判别模型与生成模型

机器学习的目的在于想得到一个模型,这种模型对数据的管理能力要比较强,那怎么才能学习得到这样的优秀的模型呢?判别模式是直接进行建模,数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,例如线性回归、SVM、决策树等,这些模型都是预先定制了模型的格式,所需要做的事情就是通过优化的方法得到最优的参数就好了;生成模式并不会直接建模,而是对联合概率分布进行建模,然后依据贝叶斯公司间接得到我们需要的模型,常见的就是贝叶斯分类器。

贝叶斯分类器

贝叶斯分类器是考虑如何基于概率和损失来选择类别标记(分类),损失即为将一个正确标记为j的样本却标记为i的损失,用\lambda_{ij}表示,所以针对整个样本集的风险(RISK)即为:

R(c_i|x)=\sum_{j=1}^N\lambda _{ij}P(c_j|x)

其实对每个每个样本x,若h能最小化风险条件R(h(x)|x)h(x)也将会最小。

h^*(x)=argmin_{x\in y}R(c|x)

此时h^*成为贝叶斯最优分类器,在贝叶斯分类器中后验概率为

R(c|x)=1-P(x|x)

机器学习里面所实现的贝叶斯分类是基于有限的训练样本尽可能的估计出后延概率P(c|x)

这里说说贝叶斯分类器中如何获得后验概率的工作策略:

1、给定x,可以通过直接建模P(c|x)来预测C,这样得到的判别模式。

2、也可以先对样本数据的联合概率分布P(c|x)建模,然后再由此获得P(c|x),这样得到的是生成模型。

事实上,概率模型的训练过程就是参数估计。

朴素贝叶斯分类器(Naive Bayesian)

朴素贝叶斯其实就是采用了独立条件假设:把已告知的类别,假设所有属性相互独立,每个属性对分类结果的影响产生影响都是相互独立的。朴素贝叶斯的训练过程就是基于训练集D来做估计类先验概率P(c),并为每个属性估计条件概率P(x_i|c)

然而朴素贝叶斯在处理数据噪音的方式采用的是拉普拉斯修正的方法,目的是避免其他属性携带的信息被训练集中未出现的属性值抹去,在估计概率值时通常需要进行平滑处理即修正。

半朴素贝叶斯分类器

与朴素贝叶斯具有相似性,半朴素贝叶斯适当考虑了一部分属性间的相互依赖信息,从而不完全需要联合概率计算,又不至于彻底忽略比较强的属性依赖关系。在半朴素贝叶斯分类器中有一个比较重要的概念就是——独依赖:假设属性在类别之外最多依赖一个其他属性。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值