机器学习-概率分布(PRML 第二章总结)

概率分布



1.离散变量


1.1伯努利分布

伯努利分布,进行一次伯努利实验,如投掷一次硬币, x=1 代表正面,其概率为 μ x=0 代表反面,其概率为 1μ

p(x|μ)=ux(1u)1x

期望为
E[x]=μ

方差为
Var[x]=μ(1μ)

当观察到结果序列为 D={x1,x2,x3,...,xn}
p(D|μ)=i=1np(x=xi|u)=i=1nμxi(1μ)1xi

伯努利实验:伯努利试验是在同样的条件下重复地、相互独立地进行的一种随机试验。其特点是该随机试验只有两种可能结果:发生或者不发生。然后我们假设该项试验独立重复地进行了 n 次,那么我们就称这一系列重复独立的随机试验为n重伯努利试验。


1.2二项分布

二项分布,进行 K 次重复的相互独立的伯努利实验,如相互独立地掷N次硬币,设 x 为正面出现的总数,则x为随机变量,设正面概率为 μ ,反面概率为 1μ

p(x|K,μ)=(Kx)μx(1μ)Kx(Kx)=K!x!(Kx)!

期望为
E[x]=Kμ

方差为
Var[x]=Kμ(1μ)

n 重伯努利实验和二项分布不同的点为,二项分布研究的是总和,而计算某个具体实验结果时需要用到伯努利分布结合乘法原理。


1.3多项式分布

多项式分布,也就是将二项分布推广到多种结果,也进行K次实验,如投掷骰子。结果是1有α1次,结果为2有 α2 次,… ,的概率分布情况。
当进行一次实验有 m 个结果时,使用向量表示概率和结果。

μ={μ1,μ2,...,μm}T
其中 μi 为第 i 个结果发生的概率。
x={x1,x2,...,xm}T
其中当第 i 个结果发生则xi=1否则 xi=0 ,这种编码方式称作one-hot编码。

例如投掷一个六面均匀的骰子概率为 μ={16,16,16,16,16,16}T ,当结果为4时表示为 x={0,0,0,1,0,0}T

p(k1,k2,...,km|K,μ)=(Kk1,k2,...,km)i=1mukiii=1mki=K


2.连续变量

2.1 beta分布

beta分布,二项分布的共轭先验分布。

共轭先验:后验概率分布的函数形式和先验概率分布的函数形式相同。后验分布函数与似然函数和先验分布函数的乘积成正比。

beta分布的形式为

p(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα1(1μ)β1
期望为
E[μ|α,β]=αα+β
方差为
Var[μ|α,β]=αβ(α+β)2(α+β+1)


2.2 狄利克雷分布

狄利克雷分布,多项式分布的共轭先验分布。
狄利克雷分布的形式为

p(μ1,μ2,...,μm|α1,α2,...,αm)=Γ(α)Γ(α1)+Γ(α2)+...+Γ(αm)i=1mμαi1ii=1mαi=α,i=1mμi=1Γ(x)Γ(x)=(x1)!


2.3 高斯分布


3 极大似然估计

极大似然估计是在给定模型(含有未知参数)和样本集的情况下用来估计模型参数,其思想就是找到最佳的参数,使得样本发生的几率最大。

极大似然估计的过程为:
1. 写出似然函数
2. 似然函数取对数
3. 似然函数求导数
4. 求解得出参数

假设进行 K 次相互独立的实验,每一次实验结果有m种,我们观测到的样本结果为 D={x1,x2,...,xK} ,其中 xi={0,0,1,0...,0}T m 维列向量,用极大似然法估计概率向量μ={μ1,μ2,...,μm}T,其中 mi=1μi=1

似然函数为:

p(D|μ)=i=1Kj=1mμxijjmj=i=1kxijp(D|μ)=i=1mμmii
取对数为:
lnp(D|μ)=i=1mmilnui
由于有限制条件 mi=1μi=1 ,根据拉格朗日乘数法得到
L(μ,λ)=i=1mmilnui+λ(i=1mμi1)uiL(μ,λ)=miμi+λλL(μ,λ)=i=1mμi1
根据导数为0得到
μi=miλ
代入 mi=1μi=1 得到
λ=Kμi=miK
可以看出某一事件发生的概率就等于其发生的次数除以实验总数。

当我们进行三次投掷骰子实验,得到的全是6,那么根据极大似然估计我们可以得到6的概率为1,其余的概率为0,这显然和我们的常识所相悖,这样就引出了最大后验估计


4 最大后验估计

最大后验估计和极大似然估计不一样的点在于,当模型中的参数服从某一分布,也就是具有了一定的先验知识,对似然结果进行修正后的结果,同样也是求出参数的一个具体的值

似然函数 p(x|μ) ,用参数的函数表示结果的概率,就是似然函数。
先验概率 p(μ) ,已知模型参数服从某一分布,则具有先验概率,也代表先验知识。
后验概率 p(μ|x) ,表示已经知道结果的情况下,推算模型参数出现的概率

后验概率 似然函数 先验概率

根据贝叶斯公式

p(u|x)=p(x|μ)p(μ)p(x)
我们要得到使得后验概率最大的参数 μ
μ̂ =argmaxμp(μ|x)=argmaxμp(x|μ)p(μ)p(x)
由于 μ p(x) 没有任何关系,所以
μ̂ =argmaxμp(μ|x)=argmaxμp(x|μ)p(μ)
例如观测到的样本服从于二项分布,并且二项分布的共轭先验是Beta分布得到
μ̂ ===argmaxμ(Kx)μx(1μ)(Kx)Γ(α+β)Γ(α)Γ(β)μα1(1μ)β1argmaxμ(Kx)Γ(α+β)Γ(α)Γ(β)μx+α1(1μ)K+βx1argmaxμg(x,α,β)μx+α1(1μ)K+βx1
对其取对数求导数得到
μ=α+x1α+β+K2
其中 α 表示的是之前 x=1 的总数, β 表示的是 x=0 的总数,这里 μ 就表示的是加上之前的先验知识,也就是在之前还做过 α+β 次实验,再加上这次做的K次实验最终的到的结果。 可以看出最大后验将先验知识结合到里面,对似然函数进行了修正


5 贝叶斯估计

贝叶斯估计其实并不是估计一个原有的值,而是估计一个新样本发生的概率,根据贝叶斯公式

p(u|x)=p(x|μ)p(μ)p(x)
其中 p(x) 被称为证据项
p(x)=p(x|μ)p(μ)dμ
新样本发生的概率
p(x̂ |D)=p(x|μ)p(μ|D)dμ

还是用二项分布和Beta分布举例,后验概率正比于似然函数和先验概率的乘积
p(μ|x,α,β)(Kx)μx(1μ)(Kx)Γ(α+β)Γ(α)Γ(β)μα1(1μ)β1μx+α1(1μ)K+βx1

所以根据共轭先验,得到后验分布是 μBeta(x+α,K+βx) ,这里凑了一个标准化项 1Beta(α,β) 使得积分为1,再套用上面的公式
p(x̂ =1|D)=μp(u|D)du=E[u|D]
新样本为1的概率就等于后验概率的期望
x+αK+α+β

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值