第二章:probability distribution

2-3:Gaussian distribution

7: 对于高斯函数的贝叶斯推断

(1):单变量高斯分布 p(x|u,σ) ,此时平均值u未知,方差 σ 已知。则参数u的先验分布假设为 p(u)=N(u|u0,σ20) ,则后验分布为 p(u|x⃗ )=N(u|uN,σ2N) ,在这里 uN=σ2Nσ20+σ2u0+Nσ20Nσ20+σ2uML,1σ2N=1σ20+Nσ2

(2):单变量高斯分布 p(x|u,σ) ,此时平均值u已知,方差 σ 未知,我们用参数 λ 表示方差的逆 1/σ2 。则参数 λ 的先验分布假设为 Gam(λ|a,b)=1Γ(a)baλa1exp(bλ) 。则后验分布为 p(λ|x⃗ )=Gamma(λ|aN,bN) ,在这里 aN=a0+N/2,bN=b0+N2σ2ML

(3):单变量高斯分布 p(x|u,σ) ,此时平均值u未知,方差 σ 未知,此时我们假设参数u和 λ 服从的先验分布为 p(u,λ)=N(u|u0,(βλ)1)Gam(λ|a,b) 。这个分布称为normal-gamma或者是Gaussian-gamma 分布。

(4):D维变量 x⃗  高斯分布 N(x⃗ |u⃗ ,Λ1) , 此时 u⃗  未知, Λ 已知,则假设参数 u⃗  服从的先验分布为 p(u⃗ )=N(u⃗ |u⃗ 0,Σ0)

(5):D维变量 x⃗  高斯分布 N(x⃗ |u⃗ ,Λ1) ,此时 u⃗  已知, Λ 未知,则假设参数 Λ 所服从的分布为 W(Λ|W,v)=B|Λ|(vD1)/2exp(12Tr(W1Λ)),B(W,v)=|W|v/2(2vD/2πD(D1)/4Di=1Γ(v+1i2))1

(6):D维变量 x⃗  高斯分布 N(x⃗ |u⃗ ,Λ1) ,此时 u⃗  Λ 均未知,则假设这两个参数的先验分布为 p(u⃗ ,Λ|u⃗ 0,β,W,v)=N(u⃗ |u⃗ 0,(βΛ)1)W(Λ|W,v)

8:Student’s t分布 St(x|u,λ,v)=Γ(v/2+1/2)Γ(v/2)(λπv)1/2[1+λ(xu)2v]v/21/2 。在这里参数 v 被称之为自由度。我们能够把student’s t分布视为有无数个有着相同平均值但不同方差的高斯函数的叠加,这能够被理解为有着无数个高斯函数的混合。其直接结果是,一般来说,学生t分布有着比高斯函数更长的尾巴。这使得t分布有着一个重要性质called robustness which means it is much less sensitive than the gaussian to the presence of a few data points which are outliers.

上面给出的是单变量的学生t分布,多变量的高斯函数为St(x⃗ |u⃗ ,Λ,v)=Γ(D/2+v/2)Γ(v/2)|Λ|1/2(πv)D/2[1+Δ2v]D/2v/2,在这里 Δ2=(x⃗ u⃗ )TΛ(x⃗ u⃗ )

9:对于周期性的变量,我们应该在极坐标系下描述它的密度概率分布。在此情况下,一个可以选择的单变量概率分布是von Mises分布,其形式为:

p(θ|θ0,m)=12πI0(m)exp{mcos(θθ0)}I0(m)=12π2π0exp{mcosθ}dθ

在这里, θ0 对应着分布的平均值,m是concentration参数。这个分布有一个缺点就是它是单峰的,但是von Mises分布的混合能够被用来描述多峰性。

10:基本密度分布(比如高斯分布)的线性组合也能够形成概率模型,这称之为混合分布(mixture distribution)。

高斯混合(mixture of gaussians)能够被表示为 p(x⃗ )=Kk=1πkN(x⃗ |u⃗ k,Σk) 。每一个高斯密度 N(x⃗ |u⃗ k,Σk) 被称之为该混合的一个组成成分(component),并且有它自己的平均值 u⃗ k 和协方差 Σk

参数 πk 被称之为混合参数(mixing coefficients),为了使概率归一化,应该要满足 0πk1 Kk=1πk=1 这两个条件。

依据概率的求和和求积规则,边际密度 p(x⃗ ) 能够被写为 p(x⃗ )=Kk=1p(k)p(x⃗ |k) 。依据贝叶斯定理,我们能够推导出如下公式: γk(x⃗ )=p(k|x⃗ )=p(k)p(x⃗ |k)Σlp(l)p(x⃗ |l) p(k) 被称之为挑选第k个成分的先验分布, p(x⃗ |k) 被称之为在给定k值下, x⃗  的条件概率,求出的后验分布 p(k|x⃗ ) 被称之为responsibilities

2-4: The Exponential Family

1 :指数族分布的形式为 p(x⃗ |η⃗ )=h(x⃗ )g(η⃗ )exp{η⃗ Tu⃗ (x⃗ )} ,在这里 η⃗  被称之为分布的自然参数, u⃗ (x⃗ ) x⃗  的函数。
例如伯努利分布 p(x|u)=ux(1u)1x ,经过一些转换,能够被写成 p(x|η)=σ(η)exp(ηx),η=ln(u1u) ,把这个公式与指数族分布的形式对比,我们发现 u(x)=x,h(x)=1,g(η)=σ(η) ,因此我们能够认为伯努利分布属于指数族。

2:指数族密度分布的归一化的形式为 g(η⃗ )h(x⃗ )exp{η⃗ Tu⃗ (x⃗ )}dx⃗ =1 ,等式两边对参数 η⃗  求导,可得 ln{g(η⃗ )}η⃗ =E[u⃗ (x⃗ )]

3:当我们有了一系列独立且相同分布的数据集 {x1,......,xn} ,则我们用极大似然法来推出参数 η⃗  ,公式为 ln{g(η⃗ )}η⃗ /η⃗ =η⃗ ML=1NNn=1u⃗ (x⃗ n) 。从这个公式中,我们可以得到如下两点:

(1):极大似然估计数的解仅仅依赖于数据的 nu⃗ (x⃗ n) ,因此 nu⃗ (x⃗ n) 称之为指数族分布的sufficient statistic;
(2):如果我们考虑N趋于无穷的极限情况,则 1NNn=1u⃗ (x⃗ n) 变成了 E[u⃗ (x⃗ )] ,在这个时候比较2和3中的两个公式,我们会发现 η⃗ ML 会等于真实值 η⃗ 

4:对于指数族分布来说,其参数 η⃗  的共轭先验能够被写成 p(η⃗ |χ⃗ ,ν)=f(χ⃗ ,ν)g(η⃗ )νexp{νη⃗ Tχ⃗ } 。因此此时,参数 η⃗  的后验分布可以写成 p(η⃗ |D,χ⃗ ,ν)g(η⃗ )(ν+N)exp{ν⃗ T(Nn=1u⃗ (x⃗ n)+νχ⃗ )}

5:在很多情况下,我们不知道先验分布应该采取什么样的分布,在这个时候我们就寻找一个先验分布,使得其对后验分布的影响尽可能的小,这样的先验分布称之为noninformative prior。

2-5:Nonparametric Methods

问题:给定D维空间中观察到的N个数据样本,估计密度函数 p(x⃗ )
解决方法:在足够小的区域R中考虑问题。在D维空间中,任取一个点 x⃗  ,设落入R的概率为p,假设观察到N个样本,则R中落入K个点的概率为Bin(K|N,P)。由于R足够小,所以 p(x⃗ ) 在R中近似为常数,所以在R空间区域中的概率质量 P=p(x⃗ )V (V为该R空间区域的体积),与此同时,空间区域R足够大,使得落入这个空间区域的点的个数K=NP。因此推出 K=Np(x⃗ )V ,所以 p(x⃗ )=KNV

一:Kernel density estimation:

对于该方法,我们固定空间区域R的体积V,决定K。我们假设这个空间区域R是一个以点 x⃗  为中心的超立方体(hypercube)。为了计算落入到这个R区域中点的个数,我们定义下列函数,其中 k(u⃗ )=0 称为kernel function。

k(u⃗ )=1,|ui|<=1/2,i=1,..,Dk(u⃗ )=0,otherwise

这个函数表示的意思是,量 k((x⃗ x⃗ n)/h) 将会是1,如果点 x⃗ n 落入到以 x⃗  为中心,边为h的超立方体中。因此落入到这个超立方体总的点数是
K=n=1Nk(x⃗ x⃗ nh)

因此点 x⃗  的概率,也称为kernel density estimator,为
p(x⃗ )=1Nn=1N1hDk(x⃗ x⃗ nh)

在之前我们理解上述方程是把它看成是一个以点 x⃗  为中心的立方体,但现在利用 k(u⃗ ) 的对称性,我们能够把上述公式理解成N个以数据集点 xn 为中心立方体的和。

这种kernel function会导致artificial discontinuities,因此我们会使用更加平滑的函数,一个普通的选择是高斯函数,这导致了下面的内核密度模型(kernel density model):

p(x⃗ )=1Nn=1N1(2πh2)D/2exp{||x⃗ x⃗ n||22h2}

在这个函数中, h是高斯函数成分的标准偏离。 Thus our density model is obtained by placing a Gaussian over each data point and then adding up the contributions over the whole data set, and then dividing by N so that the density is correctly normalized.

参数h扮演者smoothing parameter的角色,h太小会导致噪音,但h太大会导致过度光滑,因此h值的合适选择是模型复杂度的一个问题。

二:Nearest-neighbour methods

1:对于kernel density estimation来说,一个缺点就是对于所有的内核函数来说,参数h是固定的,那么在数据密度大的区域,大的h值会导致over-smoothing。然而减少h或许会导致在数据密度小的区域,噪音比较大,因此h的最优选择应该要依赖于数据空间的位置,而不是永远是一个固定值,这个问题能够用nearest-neighbour methods方法解决。

2:nearest-neighbour methods是固定K值,使用数据去找到V的合适值。为了推出点 x⃗  的密度 p(x⃗ ) ,我们可以考虑一个以点 x⃗  为中心的超球(hypersphere),我们允许这个超球的半径r增长直至恰好包含K个数据点,然后使用 p(x⃗ )=KNV 去推出点 x⃗  的密度 p(x⃗ ) ,其中V是恰好包含K个数据点的超球体积。

3:K-nearest-neighbour方法也能够被推广到分类问题。
假设我们有一个N个数据点的数据集,在这个数据集中每个类 Ck 对应的数据点总数为 Nk ,则 kNk=N 。如果我们想要分类一个新的点 x⃗  ,则我们以该点为中心画一个球使之包含K个点。我们假定这个球的体积为V并且对于每一个类 Ck 分别包含了 Kk 个数据点,然后可以得出下面三个概率

p(x⃗ |Ck)=KkNkVp(x⃗ )=KNVp(Ck)=NkN

根据贝叶斯定理,我们推出
p(Ck|x⃗ )=p(x⃗ |Ck)p(Ck)p(x⃗ )=KkK

因此如果我们希望极小化分类错误的概率,那么我们就把这个新数据点分类到有着最大的后验概率的那个类。

4:K-nearest-neighbour和kernel density estimator这两个方法要求整个训练集,如果这个训练集很大的话,那么计算是很昂贵的,因此这些非参数方法是严重的受限制的。另一方面,就表达概率分布而言,简单的参数模型也是很严重的受限制的。因此这本书随后的章节将会给我们介绍密度模型,它们很灵活但是它们的复杂度能够被控制且与训练集的大小无关。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值