[算法]PRML学习笔记1.2.4高斯分布

参考文献:Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/

简介

在第二章中将专门研究各种概率分布以及其关键特性。在这里引入对于连续变量(continous variables)来说最重要的概率分布之一:正太分布normal distribution)或者高斯分布Gaussian distribution)。在本章的其余部分以及本书中的大部分内容将广泛使用这种分布。

高斯分布

高斯分布的主要参数

单个实值变量 x x x的情况下,高斯分布定义为如下公式(1.46): N ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x|\mu,\sigma^2)=\sqrt{\dfrac{1}{2\pi\sigma^2}}exp(-\dfrac{1}{2\sigma^2}(x-\mu)^2) N(xμ,σ2)=2πσ21 exp(2σ21(xμ)2)

其主要是由两个参数进行控制:

  1. 平均值(mean) μ \mu μ
  2. 方差(variance) σ 2 \sigma^2 σ2

方差平方根得出的 σ \sigma σ称为标准偏差standard deviation); 由精度precision)可由方差的倒数表示: β = 1 σ 2 \beta=\dfrac{1}{\sigma^2} β=σ21

高斯分布的有效概率密度

下图1.13展示了高斯分布Gaussian distribution
在这里插入图片描述
1.46满足了有效概率密度(valid probability density)的两个要求:

  1. 从公式1.46可以看出高斯分布满足如下条件(1.47): N ( x ∣ μ , σ 2 ) > 0 N(x|\mu,\sigma^2) > 0 N(xμ,σ2)>0
  2. 从1.46也可以看出**高斯分布是归一化(normalized)**的,因此高斯分布也满足如下条件(1.48): ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \displaystyle \int^{\infty}_{-\infty}{N(x|\mu,\sigma^2)dx} =1 N(xμ,σ2)dx=1

高斯分布下的数学期望

很容易可以找出在高斯分布下 x x x的数学期望函数。特别是 x x x的平均值可表示为如下公式(1.49),其中参数 μ \mu μ表示 x x x在分布下的平均值,其被称为均值mean): E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ E[x] =\displaystyle \int^{\infty}_{-\infty}{N(x|\mu,\sigma^2)xdx} = \mu E[x]=N(xμ,σ2)xdx=μ

同理,对于 x x x二阶求导可表示为如下公式(1.50): E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 E[x^2] =\displaystyle \int^{\infty}_{-\infty}{N(x|\mu,\sigma^2)x^2dx} = \mu^2 + \sigma^2 E[x2]=N(xμ,σ2)x2dx=μ2+σ2

根据1.49 和 1.50 中展示的公式, x x x的方差可用如下等式展示: v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 var[x]=E[x^2]-E[x]^2=\sigma^2 var[x]=E[x2]E[x]2=σ2

因此, σ 2 \sigma^2 σ2称为方差参数。分布的最大值称为其众数(mode)。对于高斯函数来说,众数(mode)与均值(mean)一致

连续变量(continuous variables)的D维向量x(D-dimensional vector x)

连续变量的D维向量x上定义的高斯分布可由下式给出: N ( x ∣ μ , Σ ) = 1 ( 2 π ) D 1 Σ e x p ( − 1 2 ( x − μ ) T 1 Σ ( x − μ ) ) N(x|\mu,\Sigma) =\sqrt{\dfrac{1}{(2\pi)^D}} \sqrt{\dfrac{1}{\Sigma}}exp(-\dfrac{1}{2}(x-\mu)^T\dfrac{1}{\Sigma}(x-\mu)) N(xμ,Σ)=(2π)D1 Σ1 exp(21(xμ)TΣ1(xμ))

其中 D维向量 μ \mu μ被称为均值mean),D*D矩阵 Σ \Sigma Σ被称为协方差covariance), ∣ Σ ∣ |\Sigma| Σ表示 Σ \Sigma Σ行列式

将在第2.3节中详细研究多元高斯分布性质

高斯分布的似然函数(likelihood)

现在假设有一组观测数据 x = ( x 1 , . . . , x N ) T x=(x_1,...,x_N)^T x=(x1,...,xN)T用来标注变量 x x xN个观测值。请注意这里使用的是类型面type-face x x x,请将其与将其与向量值vector-valued)变量 ( x 1 , . . . , x D ) T (x_1,...,x_D)^T (x1,...,xD)T中的单个观测值 x x x区分开来

假设观测值与均值为 μ \mu μ和方差为 σ 2 \sigma^2 σ2是未知的高斯分布是互相独立的independent),现在想要从数据集中确定这些参数

同一分布中独立选出的数据点被称为独立且具有相同分布的数据点,通常缩写为i.i.d

两个独立事件的联合概率(joint probability)分别由每个事件的边际概率(marginal probability)的乘积给出。因为数据集 x x x属于i.i.d,所以可以将给定 μ \mu μ σ 2 \sigma^2 σ2的数据集概率写成如下公式(1.53) p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(x|\mu,\sigma^2)=\displaystyle \prod^{N}_{n=1}{\Nu(x_n|\mu,\sigma^2)} p(xμ,σ2)=n=1NN(xnμ,σ2)

如上公式被视为是 μ \mu μ σ 2 \sigma^2 σ2的函数,这就是高斯分布的似然函数likelihood function),在下图1.14中以图解的方式进行了解释。
在这里插入图片描述
图1.14:

  1. 图中黑色点:一组数值{ x n x_n xn}
  2. 图中蓝色点:数值(黑色点)映射在高斯分布上对应的值
  3. 似然函数:蓝色点的乘积
  4. 最大似然:涉及调整高斯分布中的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2

高斯分布最大似然函数(maximum likelihood function)

使用观测数据集来确定概率分布参数的一个常见标准是找到使似然函数最大化的参数值。前面对概率论的讨论来看,使给定数据的参数的概率最大化似乎更自然,而不是使给定参数的数据的概率最大化。这两个标准是相关的,这将在曲线拟合curve fitting)的上下文中讨论。

在这里将通过使似然函数(1.53)最大化来确定高斯函数中未知的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2。在实际函数推导和应用中,使似然函数的对数最大化更为方便,因为对数是其参数的单调递增函数,所以函数对数的最大化等价于函数本身的最大化。采用对数不仅简化了后续的数学分析,而且在数值上也有帮助,因为大量小概率的乘积很容易影响计算机的数值精度,所以可以通过计算对数概率之和来解决。

根据(1.46)和(1.53),对数似然函数(log likelihood function)可以写成如下公式(1.54): l n p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 l n σ 2 − N 2 l n ( 2 π ) lnp(x|\mu,\sigma^2) =-\dfrac{1}{2\sigma^2}\displaystyle \sum^{N}_{n=1}{(x_n-\mu)^2} -\dfrac{N}{2}ln\sigma^2-\dfrac{N}{2}ln(2\pi) lnp(xμ,σ2)=2σ21n=1N(xnμ)22Nlnσ22Nln(2π)

下面为对于均值 μ \mu μ和方差 σ 2 \sigma^2 σ2的最大似然解决方案

  1. 相对于均值 μ \mu μ,能够获得最大似然解决方案如下公式(1.55): μ M L = 1 N ∑ n = 1 N x n \mu ML=\dfrac{1}{N}\displaystyle \sum^{N}_{n=1}{x_n} μML=N1n=1Nxn这里的 μ M L \mu ML μML为样本平均值(sample mean),即观测值{ x n x_n xn}的平均值。
  2. 相对于方差 σ 2 \sigma^2 σ2,能够获得最大似然解决方案如下公式(1.56): σ 2 M L = 1 N ∑ n = 1 N ( x n − μ M L ) 2 \sigma^2 ML=\dfrac{1}{N}\displaystyle \sum^{N}_{n=1}{(x_n-\mu ML)^2} σ2ML=N1n=1N(xnμML)2这里的 σ 2 M L \sigma^2 ML σ2ML为样本方差(sample variance),即通过测量 μ M L \mu ML μML样本平均值得出。

请注意,对均值 μ \mu μ和方差 σ 2 \sigma^2 σ2可以执行联合最大化 joint maximization(1.54),但在高斯分布的情况下,均值 μ \mu μ的解和方差 σ 2 \sigma^2 σ2的解是分开的,因此可以首先计算(1.55),然后使用该结果计算(1.56)。

在本文的后续章节中,将重点介绍最大似然方法的局限性。在这里对于单变量高斯分布( univariate Gaussian distribution)的最大似然参数设置的解决方案中给出问题的指示。 特别是,将证明最大似然方法会系统地低估分布的方差。这一现象的一个示例被称为偏差(bias),与**多项式曲线(polynomial curve fitting)拟合中遇到的过拟合(over-fitting)**问题有关。

首先注意到,最大似然解 μ M L \mu ML μML σ 2 M L \sigma^2 ML σ2ML是数据集值为 x 1 , . . . , x N x_1,...,x_N x1...xN的函数。考虑到相对于数据集值的这些数量的期望值,这些值本身来自具有参数 μ \mu μ σ 2 \sigma^2 σ2的高斯分布。 直接表明:(1.57) E [ μ M L ] = μ E[\mu ML] = \mu E[μML]=μ (1.58) E [ σ 2 M L ] = ( N − 1 N ) σ 2 E[\sigma^2 ML] = (\dfrac {N-1}{N})\sigma^2 E[σ2ML]=(NN1)σ2

因此,平均而言,最大似然估计将获得正确的均值,但会将真实方差低估 N − 1 N \dfrac{N − 1}{N} NN1倍。 下图1.15给出了此结果的直观效果。

在这里插入图片描述

  1. 绿色曲线:真实的高斯分布
  2. 红色曲线:通过1.55得出得最大似然结果你和数据集后得的高斯分布
  3. 蓝色点: 每个数据点均使用最大似然结果(1.55)和(1.56)的两个数据点组成
  4. 取平均值,该平均值是正确的,但是由于方差是相对于样本平均值而不是相对于真实平均值进行衡量的,因此系统地低估了方差

从(1.58)可以得出下方差参数(1.59)的估计是无偏(unbiased)的 σ ‾ 2 = N N − 1 σ 2 M L = 1 N − 1 ∑ n = 1 N ( x n − μ M L ) 2 \overline \sigma^2 = \dfrac{N}{N-1}\sigma^2 ML = \dfrac{1}{N-1}\displaystyle \sum^{N}_{n=1}{(x_n-\mu ML)^2} σ2=N1Nσ2ML=N11n=1N(xnμML)2

在第10.1.3节中,将看到采用贝叶斯方法时该结果如何自动产生。

请注意,随着数据点数量N的增加,最大似然解的偏差变得不那么重要,并且在极限 N → ∞ N\to \infty N方差的最大似然解等于生成数据的分布的真实方差。 实际上,对于小N以外的任何事物,这种偏差都不会被证明是一个严重的问题。 但是,在本书中,将对具有许多参数的更复杂的模型感兴趣,对于这些模型,与最大似然相关的偏差问题将更加严重。 实际上,正如将要看到的,最大似然性的偏差问题是我们在多项式曲线拟合的背景下较早遇到的过拟合问题(over-fitting)的根源

总结

高斯分布:

  1. 定义: N ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x|\mu,\sigma^2)=\sqrt{\dfrac{1}{2\pi\sigma^2}}exp(-\dfrac{1}{2\sigma^2}(x-\mu)^2) N(xμ,σ2)=2πσ21 exp(2σ21(xμ)2)
  2. 重要参数:
    a. 平均值(mean) μ \mu μ
    b. 方差(variance) σ 2 \sigma^2 σ2 ->标准偏差 σ \sigma σ
    c. 精度(precision): β = 1 σ 2 \beta=\dfrac{1}{\sigma^2} β=σ21

高斯分布的有效概率密度

  1. 归一化
  2. 满足两个条件:
    a. N ( x ∣ μ , σ 2 ) > 0 N(x|\mu,\sigma^2) > 0 N(xμ,σ2)>0
    b. ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \displaystyle \int^{\infty}_{-\infty}{N(x|\mu,\sigma^2)dx} =1 N(xμ,σ2)dx=1

高斯分布下的数学期望

  1. 均值mean): E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ E[x] =\displaystyle \int^{\infty}_{-\infty}{N(x|\mu,\sigma^2)xdx} = \mu E[x]=N(xμ,σ2)xdx=μ
  2. 二阶求导: E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 E[x^2] =\displaystyle \int^{\infty}_{-\infty}{N(x|\mu,\sigma^2)x^2dx} = \mu^2 + \sigma^2 E[x2]=N(xμ,σ2)x2dx=μ2+σ2
  3. x x x的方差 v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 var[x]=E[x^2]-E[x]^2=\sigma^2 var[x]=E[x2]E[x]2=σ2
  4. 众数(mode)与均值(mean)一致

连续变量的D维向量x上定义的高斯分布可由下式给出: N ( x ∣ μ , Σ ) = 1 ( 2 π ) D 1 Σ e x p ( − 1 2 ( x − μ ) T 1 Σ ( x − μ ) ) N(x|\mu,\Sigma) =\sqrt{\dfrac{1}{(2\pi)^D}} \sqrt{\dfrac{1}{\Sigma}}exp(-\dfrac{1}{2}(x-\mu)^T\dfrac{1}{\Sigma}(x-\mu)) N(xμ,Σ)=(2π)D1 Σ1 exp(21(xμ)TΣ1(xμ))

高斯分布的似然函数(likelihood)

  1. 观测值与均值为 μ \mu μ和方差为 σ 2 \sigma^2 σ2是未知的高斯分布是互相独立的independent
  2. 同一分布中独立选出的数据点 -> i.i.d独立且具有相同分布的数据点
  3. p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(x|\mu,\sigma^2)=\displaystyle \prod^{N}_{n=1}{\Nu(x_n|\mu,\sigma^2)} p(xμ,σ2)=n=1NN(xnμ,σ2)

高斯分布最大似然函数(maximum likelihood function)

  1. 找到使似然函数最大化的参数值 ->取对数
  2. 似然函数的对数: l n p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 l n σ 2 − N 2 l n ( 2 π ) lnp(x|\mu,\sigma^2) =-\dfrac{1}{2\sigma^2}\displaystyle \sum^{N}_{n=1}{(x_n-\mu)^2} -\dfrac{N}{2}ln\sigma^2-\dfrac{N}{2}ln(2\pi) lnp(xμ,σ2)=2σ21n=1N(xnμ)22Nlnσ22Nln(2π)
  3. 均值 μ \mu μ μ M L = 1 N ∑ n = 1 N x n \mu ML=\dfrac{1}{N}\displaystyle \sum^{N}_{n=1}{x_n} μML=N1n=1Nxn
  4. 方差 σ 2 \sigma^2 σ2 σ 2 M L = 1 N ∑ n = 1 N ( x n − μ M L ) 2 \sigma^2 ML=\dfrac{1}{N}\displaystyle \sum^{N}_{n=1}{(x_n-\mu ML)^2} σ2ML=N1n=1N(xnμML)2
  5. 均值 μ \mu μ的解和方差 σ 2 \sigma^2 σ2的解是分开的
  6. 偏差:最大似然方法会系统地低估分布的方差 -> 过拟合(over-fitting)->将真实方差低估 N − 1 N \dfrac{N − 1}{N} NN1
  7. 无偏(unbiased)的方差参数估计: σ ‾ 2 = N N − 1 σ 2 M L = 1 N − 1 ∑ n = 1 N ( x n − μ M L ) 2 \overline \sigma^2 = \dfrac{N}{N-1}\sigma^2 ML = \dfrac{1}{N-1}\displaystyle \sum^{N}_{n=1}{(x_n-\mu ML)^2} σ2=N1Nσ2ML=N11n=1N(xnμML)2
  8. 数量N的增加,最大似然解的偏差变得不那么重要; 极限 N → ∞ N\to \infty N中,方差的最大似然解等于生成数据的分布的真实方差
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值