贝叶斯学习、MAP、ML

原创 2016年06月02日 11:11:12

贝叶斯估计与有监督学习

如何用贝叶斯估计解决有监督学习问题?
对于有监督学习,我们的目标实际上是估计一个目标函数f : X->Y,,或目标分布P(Y|X),其中X是样本的各个feature组成的多维变量,Y是样本的实际分类结果。假设样本X的取值为xk,那么,根据贝叶斯定理,分类结果为yi的概率应该为:

这里写图片描述
因此,要估计P(Y=yi|X=xk),只要根据样本,求出P(X=xk|Y=yi)的所有估计,以及P(Y=yi)的所有估计,就可以了。此后的分类过程,就是求另P(Y=yi|X=xk)最大的那个yi就可以了。那么由此可见,利用贝叶斯估计,可以解决有监督学习的问题。

分类器的“朴素”特性

何为“朴素”?
从第3节的分析里,我们知道,要求得P(Y=yi|X=xk),就需要知道P(X=xk|Y=yi)的所有估计,以及P(Y=yi)的所有估计,那么假设X为N维变量,其每一维变量都有两种取值(如文本分类中常见的各个term出现与否对应的取值0/1),而Y也有两种类别,那么就需要求出2*(2^N - 1)个估计(注意,由于在给定Y为某一类别的情况下,X的各个取值的概率和为1,所以实际需要估计的值为2^N - 1)。可以想象,对于N很大的情况(文本分类时,term的可能取值是非常大的),这一估计的计算量是巨大的。那么如何减少需要估计的量,而使得贝叶斯估计方法具有可行性呢?这里,就引入一种假设:
假设:在给定Y=yi的条件下,X的各维变量彼此相互独立。
那么,在这一假设的条件下,P(X=xk|Y=yi)=P(X1=x1j1|Y=yi)P(X2=x2j2|Y=yi)…P(Xn=xnjn|Y=yi),也就是说,此时只需要求出N个估计就可以了。因此,这一假设将贝叶斯估计的计算量从2*(2^N - 1)降为了N,使这一分类器具有了实际可行性。那么这一假设就成为朴素特性。
贝叶斯分类器特点:
1.需要知道先验概率先验概率是计算后验概率的基础。在传统的概率理论中,先验概率可以由大量的重复实验所获得的各类样本出现的频率来近似获得,其基础是“大数定律”,这一思想称为“频率主义”。而在称为“贝叶斯主义”的数理统计学派中,他们认为时间是单向的,许多事件的发生不具有可重复性,因此先验概率只能根据对置信度的主观判定来给出,也可以说由“信仰”来确定。
2、按照获得的信息对先验概率进行修正
在没有获得任何信息的时候,如果要进行分类判别,只能依据各类存在的先验概率,将样本划分到先验概率大的一类中。而在获得了更多关于样本特征的信息后,可以依照贝叶斯公式对先验概率进行修正,得到后验概率,提高分类决策的准确性和置信度。
3、分类决策存在错误率
由于贝叶斯分类是在样本取得某特征值时对它属于各类的概率进行推测,并无法获得样本真实的类别归属情况,所以分类决策一定存在错误率,即使错误率很低,分类错误的情况也可能发生。
参数的估计
只要知道先验概率和独立概率分布,就可以设计出一个贝叶斯分
类器。先验概率不是一个分布函数,仅仅是一个值,它表达了样本空间中各个类的样本所占数量的比例。依据大数定理,当训练集中样本数量足够多且来自于样本空间的随机选取时,可以以训练集中各类样本所占的比例来估计。

极大似然估计和最大后验概率

极大似然估计法应用于朴素贝叶斯分类器的求解过程。
上面说了,P(X=xk|Y=yi)的求解,可以转化为对P(X1=x1j1|Y=yi)、P(X2=x2j2|Y=yi)、… P(Xn=xnjn|Y=yi)的求解,那么如何利用极大似然估计法求这些值呢?
首选我们需要理解什么是极大似然估计,实际上,在我们的概率论课本里,关于极大似然估计的讲解,都是在解决无监督学习问题,而看完本节内容后,你应该明白,在朴素特性下,用极大似然估计解决有监督学习问题,实际上就是在各个类别的条件下,用极大似然估计解决无监督学习问题。
朴素贝叶斯分类的目标是寻找“最佳”的类别
§最佳类别是指具有最大后验概率(maximum a posteriori -MAP)的类别 cmap:
这里写图片描述
极大似然假设与贝叶斯估计的区别:
最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。这点与贝叶斯估计区别。
Map与ML的区别:
最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
极大后验MAP什么时候等于极大似然ML
不知道关于假设的任何概率,所有的hi假设拥有相同的概率,then MAP is Maximum Likelihood (hML极大似然假设),如果数据量足够大,最大后验概率和最大似然估计趋向于一致。
Map和朴素贝叶斯有什么关系
If independent attribute condition is satisfied, then vMAP = vNB 如果独立的属性条件是满足的vmap=vNB

、请描述极大似然估计 MLE 和最大后验估计 MAP 之间的区别。请解释为什么 MLE 比 MAP更容易过拟合。
MLE:取似然函数最大时的参数值为该参数的估计值,ymle=argmax[p(x|y)];MAP:取后验函数(似然与先验之积)最大时的参数值为该参数的估计值,ymap=argmax[p(x|y)p(y)]。因为MLE 只考虑训练数据拟合程度没有考虑先验知识,把错误点也加入模型中,导致过拟合。

版权声明:本文为博主原创文章,未经博主允许不得转载。

概率论复习 – ML vs. MAP vs. Bayesian Inference

转自:http://www.xperseverance.net/blogs/2012/11/1396/ 距离上次好好看这些概念大概半年过去了,很不幸,真的把他们忘记了。果真是不用则费,即使是简单...
  • u014097230
  • u014097230
  • 2016年10月11日 21:44
  • 899

Maximum Likelihood(ML) 和 Maximum a posterior(MAP)的直观理解

ML和MAP在Pattern Recognition, Machine Learning这些领域绝对是超高频词汇, 这段时间琢磨了一下下, 写下点体会. ML, 极大似然法, 说白了就是计数. 对...
  • yqr002
  • yqr002
  • 2016年03月01日 04:09
  • 995

【机器学习】MAP最大后验估计和ML最大似然估计区别

MAP:maximun a posteriori 最大后验估计 ML:maximun likelihood. 1 MAP A maximum a posteriori probability (M...
  • zkq_1986
  • zkq_1986
  • 2017年10月16日 21:50
  • 180

极大似然估计,最大后验概率估计(MAP),贝叶斯估计

三种参数估计方法都和贝叶斯公式有关,因此首先从分析贝叶斯公式入手: 贝叶斯公式可以表达为:   posterior:通过样本X得到参数的概率 likehood:通过参数得到样本X的概率 prior...
  • vividonly
  • vividonly
  • 2016年02月23日 14:20
  • 9634

最大似然估计(MLE)和最大后验概率(MAP)

最大似然估计: 最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未...
  • UPON_THE_YUN
  • UPON_THE_YUN
  • 2013年05月11日 20:13
  • 40933

带你搞懂朴素贝叶斯分类算法

带你搞懂朴素贝叶斯分类算法 带你搞懂朴素贝叶斯分类算 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最...
  • AMDS123
  • AMDS123
  • 2017年04月14日 16:19
  • 34964

机器学习笔记:朴素贝叶斯方法(Naive Bayes)原理和实现

机器学习笔记:朴素贝叶斯方法(Naive Bayes)原理和实现本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展...
  • tanhongguang1
  • tanhongguang1
  • 2015年04月13日 00:25
  • 83067

参数估计:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)

介绍几个常见的参数估计方法:最大似然估计(MLE),最大后验估计(MAP),贝叶斯估计,经验贝叶斯(Empirical Bayes)与全贝叶斯(Full Bayes)。...
  • lin360580306
  • lin360580306
  • 2016年05月01日 14:49
  • 4712

最大似然估计MLE_和_最大后验概率MAP 的区别与联系

最大似然估计MLE 首先,看一下似然函数的定义。 也就是说: 1, 似然函数 L(sita|x)  也是一个概率函数; 2,似然函数描述的是在已知一种模型下,针对某个参数,观察到了一种抽样结...
  • ljn113399
  • ljn113399
  • 2017年04月03日 05:15
  • 1025

三种参数估计方法(MLE,MAP,贝叶斯估计)

三种参数估计方法(MLE,MAP,贝叶斯估计)
  • Leo_Xu06
  • Leo_Xu06
  • 2016年04月22日 18:02
  • 1312
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:贝叶斯学习、MAP、ML
举报原因:
原因补充:

(最多只允许输入30个字)