贝叶斯分类器:机器学习背景下浅聊自己对先验、后验、likelihood、Evidence与贝叶斯公式的理解

贝叶斯分类器是传统机器学习模型的一种,是在概率框架下利用训练集D观测估计样本属性(feature)与分类结果之间的后验概率关系。后验概率,就是在观测过样本的属性(feature)之后对其分类情况的概率分布(比如0.3的概率是正类,0.7的概率是反类)。贝叶斯分类器直观看就是一个由在样本集D上学习到的后验概率和likelihood组成的计算公式,在测试阶段,将输入测试样本的feature带入可以计算出各类的分类confidence(confidence即后验)。

1. 问题参数:

  • X是特征、是属性、是对待分类物体的观测与描述;X属于{x1:有无胡须,x2:有无喉结,x3:是否穿了裙子,。。。}
  • Y是分类结果;Y属于{0:男,1:女}

2. 问题描述:给定一张图片,图中有一个人,现在做一个二分类;

3. 四大概率:

  • 验 P(Y):P(0)= 0.5,于看到图片就判断分类,反映的是被分类事物的自然规律,可有多次试验用大数定律逼近;
  • Evidence(依据) P(X):P(x1=1)= 0.2,P(X)是对于各特征的一个分布,与类别Y无关,是各特征自然出现的概率(即P(x1=1)= 0.2是指,没看到此人但估计其有胡子的概率是0.2);顾名思义,这些特征是用来进行分类的判断依据、证据;
  • 验 P(Y|X):P(0|x1=0)= 0.7,看到图片之“”,具有图中此人所展示的这些特征的一个人是男是女的概率(P(0|x1=0)= 0.7即看到一个有胡子的这个人是男人的概率是0.7);
  • Likelihood(似然) P(X|Y):P(x1=0|0)=0.66,被告知图中将会是一个男人,那么这个人有胡子的概率是0.66;

所谓“先”“后”验,是指在进行对物质性质特征的验视之前或者后(看到图片之前或后),来做分类判断;即“分类决断”与“验视特征”发生的先后顺序。

所谓likelihood,是指在得知物体类别之后,再对个特征出现的概率进行修正和re-evaluate。区别于evidence,evidence是不知类别,直接看特征分布。

机器学习的最终目的,是学习后验概率!!!即,在训练集上学习捕捉后验概率的分布。在测试时,一个新样本输入在验视其feature之后,分析分类结果的概率,实现对分类结果的预测!!

4. 贝叶斯公式:

P(X|Y) = P(Y|X) * P(X) / P(Y) ,即,Likelihood等于后验 * Evidence / 先验

5. 具体方案:

对后验概率的直接估计是困难的。之所以称之为“贝叶斯分类器”,就是因为这里通过贝叶斯公式将对后验概率的估计转化为对likelihood * 先验 / Evidence的估计。其中,Evidence是各属性在自然界中的普世分布,当做已知。那么,对后验概率额的估计就转化为了对先验概率 和 likelihood的估计

  • 先验概率 P(Y)的估计:

假设样本空间各样本之间服从i.i.d (Indenpendent Identical Distribution)独立同分布,那么一句大数定律P(Y)= |Dc| / |D|,Dc是D中分类结果为c类的样本集合

  • Likelihood P(X|Y)估计:有两种方法,极大似然估计(Maximum-Likelihood Estimation)和朴素贝叶斯分类器(Naive Bayes Classifier)

(1)MLE:人为猜定likelihood服从的分布形式(比如假设Likelihood服从Gaussian),然后将概率估计简化成参数估计问题

对于某分类类别c而言,估计c类中的likelihood就是估计c类中各种属性(feature)组合出现的概率 P(Dc|γc),γc是c类别假定的Gaussian分布likelihood的参数(比如feature是三维的,每一维的feature又有两个可能取值,那么这个feature空间的可能出现组合数为2^^3 = 8.注:并不是所有组合一定都会在D中出现)。

依据iid条件,P(Dc|γc) = 连乘(P(x|γc),x属于Dc,x是Dc中所有样本,每个样本有自己的feature组合);

为了回避连乘带来的下溢问题,两边去log求log-likelihood,转连乘为连加:LL(γc)= 连加(log P(x|γc),x属于Dc)

至此,一个基于MLE的贝叶斯分类器应该如下:

h(x)= argmax P(C)* log P(x|γc),argmax over all c in C。即,输入一个测试样本 x,依据各个样本c的如上得到的likelihood来计算一个classification score h(x)。score最大的那个类别c就是本样本的分类结果,confidence是h(x)。

(2)Naive Bayes:假设所有属性xi属于x,i = 1 to d,都是条件独立的(attribute conditional independence assumption),这样一来,就不再是将每个x的一整个feature vector作为一个整体来看,而是vector中的每一个独立feature都独立地影响着分类结果。所以,对整个vector的likelihood条件概率估计就变成了对d个xi的d次条件概率估计连乘。当然,此假设很强。为了放松此假设,有半朴素贝叶斯估计,即不完全假设属性间独立,也不完全相关,而是选择middle ground。最常见的一种semi Naive假设是one-dependent Estimator ODE即某一个属性只与另外某一个属性相关。再复杂一些,尝试全面地估计各个属性之间的联系,则有贝叶斯网(belief network)。

P(x | c) = 连乘(P(xi|c),i = 1 to d)

所以一个朴素贝叶斯分类器如下:

h(x)= argmax P(c)* 连乘(P(xi|c)

输入一个测试样本x,将其各个独立feature带入连乘,计算各个类别c的后验,然后最大的那一类c当选,with confident h(x)。

 

 

 

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值