2-3:Gaussian distribution
7: 对于高斯函数的贝叶斯推断
(1):单变量高斯分布 p(x|u,σ) ,此时平均值u未知,方差 σ 已知。则参数u的先验分布假设为 p(u)=N(u|u0,σ20) ,则后验分布为 p(u|x⃗ )=N(u|uN,σ2N) ,在这里 uN=σ2Nσ20+σ2u0+Nσ20Nσ20+σ2uML,1σ2N=1σ20+Nσ2
(2):单变量高斯分布 p(x|u,σ) ,此时平均值u已知,方差 σ 未知,我们用参数 λ 表示方差的逆 1/σ2 。则参数 λ 的先验分布假设为 Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ) 。则后验分布为 p(λ|x⃗ )=Gamma(λ|aN,bN) ,在这里 aN=a0+N/2,bN=b0+N2σ2ML 。
(3):单变量高斯分布 p(x|u,σ) ,此时平均值u未知,方差 σ 未知,此时我们假设参数u和 λ 服从的先验分布为 p(u,λ)=N(u|u0,(βλ)−1)Gam(λ|a,b) 。这个分布称为normal-gamma或者是Gaussian-gamma 分布。
(4):D维变量 x⃗ 高斯分布 N(x⃗ |u⃗ ,Λ−1) , 此时 u⃗ 未知, Λ 已知,则假设参数 u⃗ 服从的先验分布为 p(u⃗ )=N(u⃗ |u⃗ 0,Σ0) 。
(5):D维变量 x⃗ 高斯分布 N(x⃗ |u⃗ ,Λ−1) ,此时 u⃗ 已知, Λ 未知,则假设参数 Λ 所服从的分布为 W(Λ|W,v)=B|Λ|(v−D−1)/2exp(−12Tr(W−1Λ)),B(W,v)=|W|−v/2(2vD/2πD(D−1)/4∏Di=1Γ(v+1−i2))−1
(6):D维变量 x⃗ 高斯分布 N(x⃗ |u⃗ ,Λ−1) ,此时 u⃗ 和 Λ 均未知,则假设这两个参数的先验分布为 p(u⃗ ,Λ|u⃗ 0,β,W,v)=N(u⃗ |u⃗ 0,(βΛ)−1)W(Λ|W,v) 。
8:Student’s t分布 St(x|u,λ,v)=Γ(v/2+1/2)Γ(v/2)(λπv)1/2[1+λ(x−u)2v]−v/2−1/2 。在这里参数 v 被称之为自由度。我们能够把student’s t分布视为有无数个有着相同平均值但不同方差的高斯函数的叠加,这能够被理解为有着无数个高斯函数的混合。其直接结果是,一般来说,学生t分布有着比高斯函数更长的尾巴。这使得t分布有着一个重要性质called robustness which means it is much less sensitive than the gaussian to the presence of a few data points which are outliers.
上面给出的是单变量的学生t分布,多变量的高斯函数为
9:对于周期性的变量,我们应该在极坐标系下描述它的密度概率分布。在此情况下,一个可以选择的单变量概率分布是von Mises分布,其形式为:
在这里, θ0 对应着分布的平均值,m是concentration参数。这个分布有一个缺点就是它是单峰的,但是von Mises分布的混合能够被用来描述多峰性。
10:基本密度分布(比如高斯分布)的线性组合也能够形成概率模型,这称之为混合分布(mixture distribution)。
高斯混合(mixture of gaussians)能够被表示为 p(x⃗ )=∑Kk=1πkN(x⃗ |u⃗ k,Σk) 。每一个高斯密度 N(x⃗ |u⃗ k,Σk) 被称之为该混合的一个组成成分(component),并且有它自己的平均值 u⃗ k 和协方差 Σk 。
参数 πk 被称之为混合参数(mixing coefficients),为了使概率归一化,应该要满足 0≤πk≤1 和 ∑Kk=1πk=1 这两个条件。
依据概率的求和和求积规则,边际密度 p(x⃗ ) 能够被写为 p(x⃗ )=∑Kk=1p(k)p(x⃗ |k) 。依据贝叶斯定理,我们能够推导出如下公式: γk(x⃗ )=p(k|x⃗ )=p(k)p(x⃗ |k)Σlp(l)p(x⃗ |l) , p(k) 被称之为挑选第k个成分的先验分布, p(x⃗ |k) 被称之为在给定k值下, x⃗ 的条件概率,求出的后验分布 p(k|x⃗ ) 被称之为responsibilities。
2-4: The Exponential Family
1 :指数族分布的形式为
p(x⃗ |η⃗ )=h(x⃗ )g(η⃗ )exp{η⃗ Tu⃗ (x⃗ )}
,在这里
η⃗
被称之为分布的自然参数,
u⃗ (x⃗ )
是
x⃗
的函数。
例如伯努利分布
p(x|u)=ux(1−u)1−x
,经过一些转换,能够被写成
p(x|η)=σ(−η)exp(ηx),η=ln(u1−u)
,把这个公式与指数族分布的形式对比,我们发现
u(x)=x,h(x)=1,g(η)=σ(−η)
,因此我们能够认为伯努利分布属于指数族。
2:指数族密度分布的归一化的形式为 g(η⃗ )∫h(x⃗ )exp{η⃗ Tu⃗ (x⃗ )}dx⃗ =1 ,等式两边对参数 η⃗ 求导,可得 −∂ln{g(η⃗ )}∂η⃗ =E[u⃗ (x⃗ )] 。
3:当我们有了一系列独立且相同分布的数据集 {x1,......,xn} ,则我们用极大似然法来推出参数 η⃗ ,公式为 −∂ln{g(η⃗ )}∂η⃗ /η⃗ =η⃗ ML=1N∑Nn=1u⃗ (x⃗ n) 。从这个公式中,我们可以得到如下两点:
(1):极大似然估计数的解仅仅依赖于数据的
∑nu⃗ (x⃗ n)
,因此
∑nu⃗ (x⃗ n)
称之为指数族分布的sufficient statistic;
(2):如果我们考虑N趋于无穷的极限情况,则
1N∑Nn=1u⃗ (x⃗ n)
变成了
E[u⃗ (x⃗ )]
,在这个时候比较2和3中的两个公式,我们会发现
η⃗ ML
会等于真实值
η⃗
。
4:对于指数族分布来说,其参数 η⃗ 的共轭先验能够被写成 p(η⃗ |χ⃗ ,ν)=f(χ⃗ ,ν)g(η⃗ )νexp{νη⃗ Tχ⃗ } 。因此此时,参数 η⃗ 的后验分布可以写成 p(η⃗ |D,χ⃗ ,ν)∝g(η⃗ )(ν+N)exp{ν⃗ T(∑Nn=1u⃗ (x⃗ n)+νχ⃗ )} 。
5:在很多情况下,我们不知道先验分布应该采取什么样的分布,在这个时候我们就寻找一个先验分布,使得其对后验分布的影响尽可能的小,这样的先验分布称之为noninformative prior。
2-5:Nonparametric Methods
问题:给定D维空间中观察到的N个数据样本,估计密度函数
p(x⃗ )
。
解决方法:在足够小的区域R中考虑问题。在D维空间中,任取一个点
x⃗
,设落入R的概率为p,假设观察到N个样本,则R中落入K个点的概率为Bin(K|N,P)。由于R足够小,所以
p(x⃗ )
在R中近似为常数,所以在R空间区域中的概率质量
P=p(x⃗ )∗V
(V为该R空间区域的体积),与此同时,空间区域R足够大,使得落入这个空间区域的点的个数K=NP。因此推出
K=Np(x⃗ )∗V
,所以
p(x⃗ )=KNV
。
一:Kernel density estimation:
对于该方法,我们固定空间区域R的体积V,决定K。我们假设这个空间区域R是一个以点
x⃗
为中心的超立方体(hypercube)。为了计算落入到这个R区域中点的个数,我们定义下列函数,其中
k(u⃗ )=0
称为kernel function。
这个函数表示的意思是,量 k((x⃗ −x⃗ n)/h) 将会是1,如果点 x⃗ n 落入到以 x⃗ 为中心,边为h的超立方体中。因此落入到这个超立方体总的点数是
因此点 x⃗ 的概率,也称为kernel density estimator,为
在之前我们理解上述方程是把它看成是一个以点 x⃗ 为中心的立方体,但现在利用 k(u⃗ ) 的对称性,我们能够把上述公式理解成N个以数据集点 xn 为中心立方体的和。
这种kernel function会导致artificial discontinuities,因此我们会使用更加平滑的函数,一个普通的选择是高斯函数,这导致了下面的内核密度模型(kernel density model):
在这个函数中, h是高斯函数成分的标准偏离。 Thus our density model is obtained by placing a Gaussian over each data point and then adding up the contributions over the whole data set, and then dividing by N so that the density is correctly normalized.
参数h扮演者smoothing parameter的角色,h太小会导致噪音,但h太大会导致过度光滑,因此h值的合适选择是模型复杂度的一个问题。
二:Nearest-neighbour methods
1:对于kernel density estimation来说,一个缺点就是对于所有的内核函数来说,参数h是固定的,那么在数据密度大的区域,大的h值会导致over-smoothing。然而减少h或许会导致在数据密度小的区域,噪音比较大,因此h的最优选择应该要依赖于数据空间的位置,而不是永远是一个固定值,这个问题能够用nearest-neighbour methods方法解决。
2:nearest-neighbour methods是固定K值,使用数据去找到V的合适值。为了推出点 x⃗ 的密度 p(x⃗ ) ,我们可以考虑一个以点 x⃗ 为中心的超球(hypersphere),我们允许这个超球的半径r增长直至恰好包含K个数据点,然后使用 p(x⃗ )=KNV 去推出点 x⃗ 的密度 p(x⃗ ) ,其中V是恰好包含K个数据点的超球体积。
3:K-nearest-neighbour方法也能够被推广到分类问题。
假设我们有一个N个数据点的数据集,在这个数据集中每个类
Ck
对应的数据点总数为
Nk
,则
∑kNk=N
。如果我们想要分类一个新的点
x⃗
,则我们以该点为中心画一个球使之包含K个点。我们假定这个球的体积为V并且对于每一个类
Ck
分别包含了
Kk
个数据点,然后可以得出下面三个概率
根据贝叶斯定理,我们推出
因此如果我们希望极小化分类错误的概率,那么我们就把这个新数据点分类到有着最大的后验概率的那个类。
4:K-nearest-neighbour和kernel density estimator这两个方法要求整个训练集,如果这个训练集很大的话,那么计算是很昂贵的,因此这些非参数方法是严重的受限制的。另一方面,就表达概率分布而言,简单的参数模型也是很严重的受限制的。因此这本书随后的章节将会给我们介绍密度模型,它们很灵活但是它们的复杂度能够被控制且与训练集的大小无关。