Pattern Recognition and Machine Learning 第二章 概率分布

标签: 机器学习


概率分布

这章主要介绍一些常用的分布模型
对于变量x的N次观测形成独立同分布的向量 x⃗ =(x1,...,xN) ,以此对x做一个密度估计,求出 p(x) .

        Gauss


参数方法

由最基本的概率模型可以给出函数表达式,而其中的参数则由样本数据训练出来。

二项式分布

自变量只能取0或1

  1. 伯努利分布
    Bern(x|μ)=μx(1μ)1x
    在设定参数 μ 后,x的概率密度如上。解决了投掷一次硬币的问题。由经典概率论中求最大似然的方法可知
    μML=1Nxn
    因此这个求和就是该分布下的充分统计量1
  2. 二项分布
    Bin(m|N,μ)=CmNμm(1μ)Nm
    是伯努利分布的扩展,相当于做了N次投掷操作,且每次的值是独立同分布的。令 m=1Nxn ,可以通过样本空间来推出上面公式,并由期望的加法操作得到m的期望 E[m]=Nμ
    但在小数据时,这些由经典概率论得到的参数容易过拟合。例如只投了三次硬币且恰好都为正,那么之后每次投正的概率是1。然而这和常理不符。因此需要贝叶斯的方法来重新解决这个问题。
  3. Beta分布2
    Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1
    这里先给定似然是正比于 μx(1μ)1x 的,再有先验是正比于 μa1(1μ)b1 的,那么由于共轭性,后验正比于 μm+a1(1μ)l+b1 ,而前面的归一化参数则可以通过积分确定。其中 l=Nm
    由于一开始可以初始化参数a,b,可以减少过拟合的发生。数据集越大,参数方差越小,参数也越来越确定。前一个实验的后验会作为后一个实验的先验,逐步提高准确性。并且这种顺序方法只依赖于数据的独立性,不必存储数据,只需要流水线地处理数据修正参数即可。
    在平均意义上,频率学同样可以解释参数的方差为什么越来越小
    varθ[θ]=ED[varθ[θ|D]]+varθ[Eθ[θ|D]]ED[varθ[θ|D]]
    即前验参数方差大于后验参数方差的均值。

多项式分布

变量取值可以有K个但每次只能取一个,则可以用K维向量来表示,取第k个结果则将对应第k维标1,其余标0。满足 x⃗ =(0,...,1,...,0)Txk=1 ,可得先验

p(x⃗ |μ⃗ )=Πμ
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值