Machine Learning 贝叶斯分类器

一、朴素贝叶斯定义

朴素贝叶斯是基于贝叶斯定理和条件独立假设的分类方法。

1、贝叶斯判定准则

对于任意的模型来说,学习的目标就是为了让总体的期望风险最小。期望是对联合分布P(X,Y)取的。由此取条件期望:

由于联合分布P(X,Y)未知,不能直接计算。但是我们可以对训练数据集计算期望损失,将之称为经验风险或者经验损失。一般来说我们会定义损失函数与优化算法。然后让模型去学习,目标是整体的经验风险最小化。贝叶斯判定准则是让每条样本的风险都最小化来达到整体经验最小化的目的。即决策准则是

假设损失函数Loss Fn是0-1损失函数:

即期望风险最小化等同于后验概率最大化

如何计算后验概率?主要有两种策略:

  1. 直接对建模的是判别式模型。如决策树,SVM
  2. 对联合概率分布P(X,Y)建模。贝叶斯采用这种建模方式

2、贝叶斯定理

3、特征条件独立假设

为什么要进行特征条件独立假设?考虑计算类条件概率p(X=x|Y=Ck)时。此时涉及到x所有属性的联合概率。训练集可能不包含x的全部可能取值情况。因为,这是一个指数级别的。假设x有n维,每维固定有m种可能。那么x所有可能出现的情况有nm种。如何训练集不包含某个样本x。那么类条件概率就是0。为了避免这种情况,同时简化计算。进行了特征条件独立的假设,也就是各特征之间互不影响,用公式描述如下:

4、贝叶斯决策函数

用朴素贝叶斯分类时,对给定的输入x,将后验概率最大的类作为x的类输出。需要模型计算后验概率分布pX=xY=ck

由于分母都相同,可简化为:

二、极大似然估

通过上面的决策函数可知对于一个样本进行预测,就是要计算先验概率和类条件概率

极大似然估计是估计随机变量分布的一种方法。首先先假设该随机变量符合某种分布,然后在基于训练集对其概率分布的参数进行估计。极大似然估计就是在参数中找到一个能使数据出现“可能性”最大的值。

用极大似然估计可能会出现所要估计的概率值为0的情况,这会影响到后面概率的计算。为此在计算某一维特征的类条件概率时采用了拉普拉斯平滑:

同时,为避免连乘做成下溢,通常使用对数似然。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值