第二章:probability distribution

1: Density Estimation: given a finite set x1...xN of observations, find distribution p(x) of a random variable x .

2: Parametric Distribution: assume a specific functional form for the distribution which is governed by a small number of adaptive parameters, such as the mean and variance in the case of Gaussian.

1): Frequentist Treatment: to choose specific values for the parameters by optimizing some criterion, such as the likelihood function.
2): Bayesian Treatment: to firstly introduce prior distributions over the parameters and then use Bayes’ theorem to compute corresponding posterior distribution given the observed data.

3: Nonparametric Density Estimation Method: the form of the distribution typically depends on the size of the data set. Such models contain parameters, but these control the model complexity rather than the form of the distribution.

4: Conjugate Priors: lead to posterior distributions having the same functional form as the prior. 先验函数中的参数称为超参数(hyperparameter),其控制着假设变量 x 服从的密度分布中的参数。

DistributionConjuage prior distribution
BernoulliBeta
MultinomialDirichlet
univariate gaussian, given variance, unknown meanGaussian
univariate gaussian, given mean, unknown varianceGamma
univariate gaussian, unknown mean, unknown variancegaussian-gamma
multivariate gaussian, given precision, unknown meanGaussian
multivariate gussian, given mean, unkonwn precisionWishart
multivariate gaussian, unknown mean, unknown precisionnormal-Wishart

2-1: Binary Variables:

1:假设单变量x只能取0和1这两个值,值为1的概率为u。则变量x对应的概率分布为 Bern(x|u)=ux(1u)1x ,这称为伯努利分布, E[x]=u,var[x]=u(1u)

2:用极大似然法求解上述分布中的参数u:
假设我们有一个变量x的观察值数据集, D={x1,x2...xN} 。构造的似然函数为 p(D|u)=Nn=1p(xn|u)=Nn=1uxn(1u)1xn 。按照极大似然法,我们对该似然函数取对数,对参数u求导,得到 uML=Nn=1xnN 。如果我们以m代表x=1的观察次数,则按照极大似然法,从观察的数据集推出的参数u为m/N。

3:变量x=1的总次数m所服从的分布为 Bin(m|N,u)=N!(Nm)!m!um(1u)Nm E[m]=Nu,var[m]=Nu(1u)

4:参数u的先验分布: Beta(u|a,b)=Γ(a+b)Γ(a)Γ(b)ua1(1u)b1 E[u]=aa+b,Var[u]=ab(a+b)2(a+b+1) 。参数a和b称为hyperparameters,其控制着参数u的分布。

因此参数u的后验分布为 p(u|m,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)um+a1(1u)l+b1(l=Nm) .

后验分布与先验分布有着相同的形式的好处是当我们观察了下一个数据集D时,上一个数据集推出的后验分布能够被视为是下一个数据集的先验分布。这能够被应用于squential Bayesian inference, 也就是得到一个观察后,可以算出后验分布,由于后验分布与原来的先验分布有着相同的形式,因此这个后验分布能够作为新的先验分布,用于下一个观察的数据,如此迭代下去。对于数据流(stream of data)的情况,这种方式可以实现real-time learning。

2-2:multinomial variables

1:如果一个离散变量有k个可能态,我们可以用1-K scheme来表示,也就是这个离散变量可以用一个k维的矢量 x⃗  来表示。如果变量取第i个态,则矢量中 xi 为1,其它的为0。如果我们令 xk 为1的概率为 uk ,则 x⃗  的分布为 p(x⃗ |u⃗ )=Kk=1ukxk ,在这里 u⃗ =(u1...uK)T ,参数 uk 满足 uk>=0 并且 kuk=1

2:假设在N次观察中, xk=1 的次数为 mk ,则 m1,m2...mk 所服从的分布为 Mult(m1,m2...,mk|u⃗ ,N)=N!m1!m2!...mk!Kk=1ukmk ,其中 Kk=1mk=N

3:参数 u⃗  的先验分布采取的形式为 Dir(u⃗ |α⃗ )=Γ(α0)Γ(α1)...Γ(αK)Kk=1uαk1k

经过贝叶斯变换以及归一化后,参数 u⃗  所得到的后验分布 p(u⃗ |D,α⃗ )=Γ(α0+N)Γ(α1+m1)...Γ(αK+mK)Kk=1ukαk+mk1

2-3:The Gaussian Distribution

1:单变量的高斯分布: N(x|u,σ2)=1(2πσ2)1/2exp{(xu)2(2σ2)} .
对于一个D维矢量 x⃗  ,多变量高斯分布的形式为 N(x⃗ |u⃗ ,Σ)=1(2π)D/21|Σ|1/2exp{12(x⃗ u⃗ )TΣ1(x⃗ u⃗ )} ,其中 E[x⃗ ]=u⃗ ,cov[x⃗ ]=Σ

2:高斯分布的缺点:
(1):参数太多,计算复杂(协方差矩阵的独立参数个数与维度D的平方同一量级);
(2):由于高斯分布是单峰的,因此不能刻画多峰的密度分布。
因此一方面高斯函数由于有太多的参数,所以很灵活,但另一方面,它有应用局限性。

为了解决缺点(2),离散的latent变量被介绍从而引入高斯混合模型(gaussian mixture)去刻画多峰问题。为了解决缺点(1),连续的latent变量被介绍去构造模型使该模型的自由参数数目不依懒于空间的维度D,然后依然能够很好的刻画数据之间的主要关联。

3:给定一个联合高斯分布 N(x⃗ |u⃗ ,Σ),Λ=Σ1 ,并且 x⃗ =(x⃗ a,x⃗ b)T,u⃗ =(u⃗ a,u⃗ b)T

则条件分布 p(x⃗ a|x⃗ b)=N(x⃗ |u⃗ a|b,Λ1aa) ,其中 u⃗ a|b=u⃗ aΛ1aaΛab(x⃗ bu⃗ b)
边际分布 p(x⃗ a)=N(x⃗ a|u⃗ a,Σaa)

4:假定 x⃗  的分布为 p(x⃗ )=N(x⃗ |u⃗ ,Λ1) 。并且还给定在 x⃗  一定的情况下, y⃗  的条件分布为 p(y⃗ |x⃗ )=N(y⃗ |Ax⃗ +b⃗ ,L1) (这是线性高斯模型的一个例子),则 p(y⃗ )=N(y⃗ |Au⃗ +b⃗ ,L1+AΛ1AT) , p(x⃗ |y⃗ )=N(x⃗ |ΣATL(y⃗ b⃗ )+Au⃗ ,Σ) where Σ=(Λ+ATLA)1

5: 给定一个数据集 X=(x1,...,xn)T ,并且假定观察结果 xn 是从多变量高斯分布中独立得到的。有了这个数据集,我们能够用极大似然法去推断多变量高斯函数中的参数。最终得到的结果是 u⃗ ML=1NNn=1xn,ΣML=1NNn=1(x⃗ nu⃗ ML)(x⃗ nu⃗ ML)T

6:我们之前谈论过,当贝叶斯方法应用于sequential method时,我们在一次观察后算出后验分布,然后当处理下一次观察时,把上次得到的后验分布当做这一次的先验分布,以此类推。

当我们把极大似然法应用于sequential method时,假设我们有一个单变量的密度分布 p(x|θ) ,在这里 θ 是密度分布的参数。应用Robbins-Monro算法,我们能够推出 θN=θN1+aN1{θlnp(x|θ)/θ=θN1,x=xN} 。 用这个公式即可sequentially求解极大似然问题,在这个公式中, θN1 表示的是基于前N-1个观测得出的值, xN 表示的是第N次的观测值,因子 aN 要满足 limNaN=0,N=aN=,N=1a2N< 这三个条件。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值