机器学习与深度学习中概率论知识的回顾

概率与统计: 统计:给定样本,推测总体分布,概率:给定总体分布 ,推测样本概率

归纳与演绎:归纳就是从个别到一般,演绎则是从一般到个别

随机变量:可以随机地取不同值的变量,是对可能的状态的描述。可以是离散或连续

概率分布:描述随机变量取每个可能状态的可能性大小。

概率质量函数(probability mass function),离散型随机变量的概率分布。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。注:所有状态的概率质量函数之和为1.每个状态的概率介于0到1之间,可取到边界。

概率密度函数(probability density function),连续型随机变量的概率分布。概率密度函数没有直接对特定的状态给出概率,而是把概率定义为落在dx面积内的概率Pxⅆx。可以通过对概率密度函数求积分来获得点集的概率质量。注意,并不要求p(x)<=1,但是∫Pxⅆx=1

联合概率:即多个随机变量的概率分布。P(x,y)表示x=x,y=y同时发生的概率。

边缘概率:在知道一组变量的联合概率分布后,其中一个子集的概率分布为边缘概率分布。Px=x=yPx=x,y=y或px=∫Px,yⅆy

条件概率的链式法则:任何多维随机变量的联合概率分布都可以分解为只有一个变量的条件概率的乘积。Px1,x2⋯xn=Px1Π2nPxix1⋯xi-1

期望:随机变量的函数的平均值;方差:随机变量x的函数与其期望值间的差异

协方差:两个随机变量相关性的强度以及这些变量的尺度。

香农熵:是对整个概率分布中不确定性总量进行量化。一个分布的香农熵表示遵循这个分布的事件所产生的期望信息总量。

KL散度:衡量两个分布的差异。交叉熵与KL散度相似(公式不好打,自己查吧)。

有向概率图:Px=Πp(xi | Parent(xi))

无向概率图:其中任何两两节点之间都有边的节点集合叫做团,每个团都有一个因子ϕⅈcⅈ,该因子的输出必须非负但不要求和或者积分为1.因此需要一个归一化因子Z来得到概率分布。p(X)=1/zΠϕ(C),其中C为最大团

例子,如下的有向图及其形式相同的无向图的联合概率计算

有向图p(a,b,c,d,e)=p(a)p(b|a)p(c|a,b)p(d|b)p(e|c)

无向图P(a,b,c,d,ⅇ)=1/zϕ1(abc)ϕ2(bd)ϕ3(cⅇ)

 

对频率派与贝叶斯派的对比认识(第一部分是我的认识,后面的是参考知乎问题)

我们需要一种对不确定性进行表示和推理的方法,但是概率论不能完全满足人工智能领域的要求。比如,频率派概率是直接分析事件发生的频率,把概率和事件发生的频率直接相联系。频率派要求事件独立,重复发生无限次,事件发生的频率在无限次发生后逼近与其概率。但是对与那种无法重复发生的事件就无法适用了。比如医生判断一个病人的病的概率为40%,在这种情况下,无法要求该病人有无穷多的副本,也没有理由相信病人的不同副本会有相同的表现。因此,这种概率是一种置信度,描述的是确定性水平。故此,对于那种无法重复或重复多次结果不一定相同的情况可以使用贝叶斯方法来从观察者对事件了解的角度来分析事件发生的概率。这种方法需要一些外部知识辅助,比如在分析试验数据之前对这些数据的了解(先验信息),试验数据(证据)以及根据试验数据得到的新知识(后验信息)。总结以下就是,频率派从事件本身的角度出发,通过无限次的重复试验,用事件的发生频率来估计概率;贝叶斯派是试验者的角度出发,根据试验者对事件的了解和后续的试验不断更新对事件的认识,贝叶斯概率就是试验者根据当前对事件的了解对事件发生的可能性进行估计

如下是参考知乎的回答

  • 频率派与贝叶斯派提供了一种对不确定性进行表达和推理的方法。频率学派通过直接为事件建模,将概率与事件发生的频率相联系。即事件在多次独立重复试验中发生的频率趋于事件发生的概率。而贝叶斯派是从观察者角度来分析,从观察者知识不完备这一点出发,试图通过已经观察到的数据来推断这一事件的结果。在频率派看来,事件的发生是随机的,而在贝叶斯派则认为事件对于知晓者而言是确定事件,对不知情者而言是随机事件,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态(概率分布)。也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的合理性的分布。
  • 在贝叶斯角度中,概率分布是观察者根据自己的知识状态赋予参数在某个集合内各个取值的可信度,而概率是一个具体的值即参数取某个值的可信度
  • 频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。所谓参数空间,就是你关心的那个参数可能的取值范围。频率学派(其实就是当年的Fisher)并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。
  •  
  • 关于统计推断的主张和想法,大体可以纳入到两个体系之内,其一叫频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派,他们把参数θ视作为止的随机变量,而样本X是固定的值,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

pθx=PθPxθpx

先验分布,在观测到数据之前对待估计参数的认识

Pxθ在确定参数的情况下,对实际观测数据的一种描述(试验数据的概率分布)

pθx后验分布,在给定观测数据的基础上对参数新的认识

px边缘概率,与待估参数无关

后验分布是不断动态更新的,一次试验所得的后验对于之后得到的新的观测数据而言可作为先验。在最开始没有观测数据的时候,根据以往经验赋予参数一个先验分布,然后得到观测数据以后就对先验进行更新,得到此次分析的后验分布。

频率派参数估计是求θ使得观察到的数据发生的可能性最大;贝叶斯方法根据观察到的数据对参数的概率分布进行更新。

 

参考

贝叶斯学派与频率学派有何不同? - 知乎

https://www.zhihu.com/question/20587681

贝叶斯学派与频率学派有何不同? - 任坤的回答 - 知乎

https://www.zhihu.com/question/20587681/answer/17435552

贝叶斯学派与频率学派有何不同? - Xiangyu Wang的回答 - 知乎
https://www.zhihu.com/question/20587681/answer/41436978

贝叶斯学派与频率学派有何不同? - 石溪的回答 - 知乎

https://www.zhihu.com/question/20587681/answer/1693868621

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小源er

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值