Bayesian Learning 自学笔记

先验分布、后验分布、似然估计这几个概念是什么意思,它们之间的关系是什么? - 石溪的回答

https://www.zhihu.com/question/24261751/answer/2355943888

我感觉。。。看懂了这个回答也差不多了。这个回答写得很好,本来我是因为看不懂视频去找的专栏。结果看完专栏我感觉好像,也不用浪费时间看视频了。

贝叶斯推断得到的是一个后验分布,而不像极大似然估计中得到的是一个具体值。他表示了在给定观测数据的情况下,推断得到的未知参数 \theta的分布情况。

一般而言我们都会选择后验分布概率密度函数曲线的峰值作为我们最终对于未知参数的估计值。这就是贝叶斯推断中的最大后验概率( MAP )准则,即选择在一个给定数据下,具有最大后验概率的值。

首先,随着观测数据的不断增多,后验分布会越来越集中,分布越集中表示对于参数的确定性越高,这很显然,观测数据的增多意味着有更多的数据、更多的信息来更新和支撑我们对于参数的认识。

先验分布、后验分布、似然估计这几个概念是什么意思,它们之间的关系是什么? - Agenter的回答 - 知乎 https://www.zhihu.com/question/24261751/answer/158547500

这个人讲得也很好,美中不足就是他定义P(X|\theta)叫likelihood,教授也这么多,是这样吗,暂时迷惑。看了一下,好像也有道理,叫做先确定原因\theta再定下分布到底具体长啥样。(但跟我笔记好像反过来了。。似然不应该是先确定X,在X情况下估计\theta吗。

-----------------------------------------------------------

更新:这个东西就叫likelihood:

----------------------------------------------------------- 

 

Introduction:

举了一个不错的例子当开头:贝叶斯就是反转概率的一个公式:

P(A | B) = \frac{P(B|A)*P(A)}{P(B)}

在AI的世界里,经常遇到类似于反转的问题,例如你可以很容易让电脑读出你的句子,但是把你说的句子撸进电脑确实一个比较蛋疼的问题。你可以很容易用一些规则生成图像,你却会发现根据图像生成一个规则是蛋疼的。在perception里我们经常就得deal with这种反转的问题。

Derivation:

        P(AB) = P(B|A)*P(A) = P(A|B)*P(B)

        P(A) 和 P(B)是边缘概率(marginal)

        P(B|A) 是条件概率(conditional)

        P(AB) 是联合概率(joint)

        | 在这里是 given

        \int P(A)*P(B) d_Ad_B = 1

        \int P(A)d_A = 1 

        \int P(A|B)d_A = 1  why? 用我的工地猜想就是:      

                                                \int P(A|B)d_A = \int \frac{P(AB)}{P(B)} d_A = P(B)/P(B) = 1

        用人话来说就是:在这个情况下B已定,我们把B看作是一个国家,例如越南。我们得到了这个B以后我们就能得到越南人的身高概率分布,假设就是一个正态分布N,那么你只要对所有身高积分,就可以得到1。反过来亦是如此,如果我们假设B是身高分布,如果我们知道了这个身高分布,那么我们对所有国家A求积分,那结果就会是1。

        P(A) = \int P(AB)d_B这个就是经典求边界概率的公式了

         推导:

                P(AB) = P(B|A)P(A) = P(A|B)P(B)

                把P(A)弄过去就好了。

Learning and Bayesian Inference:

  假设一个小孩儿之前对啥是羊有个大概的印象,就像以下红色部分展示的,这些prob都很低,他觉得像个山羊的玩意应该就是羊。p(h)反映的是在观测到数据之前我们对待估计的参数的认识,就是先验prior。根据新学习到的data,也就是蓝色的部分,结合两部分得到贝叶斯推断,就是新的对🐏的认知,至于底下没有标注的那一个求和项,求这玩意经常很复杂,也有可能是NP-HARD所以选择不管。 

   

  Method:

在step 2我们Specify了一个先验概率,这个概率就是对theta的uncertainty。是我的initial belief。我们对这个参数分布最初是怎么认为的。

我们用观测到的数据,来update our knowledge。

 在这里,参数是θ,P(D)只是一个归一化项,里面没有Θ,所以考虑的时候可以将其排除。

 贝叶斯线性回归,说实话,没太看懂。

 推导:

 彩色方框表示group thing together,绿色左下角是bad term 比较烦

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值