文章目录
第二章 概率分布与参数估计
- PRML三大基础理论
概率论 决策论 信息论
概率论
定义:两大观点(贝叶斯方法 vs. 频率论方法)
(1)概率论方法: 通过大量独立实验将概率解释为统计均值(大数定律)。 ****
(2)贝叶斯方法:将概率解释为信念度(degree of belief)。当考虑的试验次数非常少的时候,贝叶斯方法的解释非常有用。此外,贝叶斯理论将我们对于随机过程的先验知识纳入考虑,当我们获得新数据的时候,这个先验的概率分布就会被更新到后验分布中。
概率论基本概念
边缘概率、联合概率、条件概率
边缘概率(Marginal Probability)
p ( X = x i ) = c i N p(X=x_i)=\frac{c_i}{N} p(X=xi)=Nci
联合概率(Joint Probability)
p ( X = x i , Y = y j ) = n i j N p(X=x_i,Y=y_j)=\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij
条件概率(Conditional Probability)
p ( Y = y j ∣ X = x i ) = n i j c i p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i} p(Y=yj∣X=xi)=cinij
概率论法则
加法法则、乘法法则
加法法则:
p ( X = x i ) = c i N = 1 N ∑ j = 1 L n i j = ∑ j = 1 L p ( X = x i , Y = y j ) p(X=x_i)=\frac{c_i}{N}=\frac{1}{N}\sum_{j=1}^{L}n_{ij}=\sum_{j=1}^Lp(X=x_i,Y=y_j) p(X=xi)=Nci=N1∑j=1Lnij=∑j=1Lp(X=xi,Y=yj)
即 p ( X ) = ∑ Y p ( X , Y ) p(X)=\sum_Yp(X,Y) p(X)=∑Yp(X,Y)
乘法法则:
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) \begin{matrix}p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot\frac{c_i}{N}\end{matrix}=p(Y=y_j|X=x_i)p(X=x_i) p(X=xi,Y=yj)=Nnij=cinij⋅Nci=p(Y=yj∣X=xi)p(X=xi)
即 p ( X , Y ) = p ( Y ∣ X ) p ( X ) p(X,Y)=p(Y|X)p(X) p(X,Y)=p(Y∣X)p(X)
贝叶斯定理
Y代表一种假设,x是观察结果。
称 p ( Y ) p(Y) p(Y)为先验概率,是在还没有观察 X X X的情况下,Y自身的概率
称 p ( Y ∣ X ) p(Y|X) p(Y∣X)为后验概率,表示在观察到了X的情况下,Y的条件概率
称 L ( X ∣ Y ) = C ⋅ p ( X ∣ Y ) \mathcal L(X|Y)=C\cdot p(X|Y) L(X∣Y)=C⋅p(X∣Y)为似然函数,C为常数,因为似然函数的绝对数值没有意义
概率密度
离散变量的概率概念可扩展到连续变量的概率分布 ∗ p ( x ) ∗ *p(x)* ∗p(x)∗
P ( z ) = ∫ − ∞ z p ( x ) d x P(z)=\int_{-\infty}^zp(x)\mathrm{d}x P(z)=∫−∞zp(x)dx
P ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x P(x\in(a,b))=\int_a^bp(x)\mathrm{d}x P(x∈(a,b))=∫abp(x)dx
p ( x ) ⩾ 0 ∫ − ∞ ∞ p ( x ) d x = 1 p(x)\geqslant0\quad\displaystyle\int_{-\infty}^{\infty}p(x)\mathrm dx=1 p(x)⩾0∫−∞∞p(x)dx=1
x位于区间(x, x + δx)的概率为p(x)δx,其中δx →0。
概率密度*p(x)可以表示为**累计密度函数P (x)***的导数。
贝叶斯概率
在观察到数据之前,我们有⼀些关于参数w的假设,以先验概率*p(w)*的形式给出。
观测数据 D = { t 1 , . . . , t N } D=\{t_1,...,t_N\} D={t1,...,tN}的效果可通过条件概率*p(D|w)*表达
通过后验概率p(w|D),在观测到D之后估计w的不确定性**。**
p(D|w)由观测数据集D来估计,是参数向量w的函数,被称为似然函数(likelihood function),表达了在不同的参数向量w下,观测数据出现的可能性的大小
频率学家:w被认为是⼀个固定的参数,常用最大似然(maximum likelihood)估计,其中 w的值是使p(D|w)达到最大值的w值
贝叶斯观点:对先验概率的包含是很自然的,只有一个数据集D(实际观测到的数据集),参数的不确定性通过w的后验概率分布表达,其中w的值是使p(w|D)达到最大值的w值
高斯分布
N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}\left(x|\mu,\sigma^2\right)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\} N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}
均值: E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ \mathbb{E}[x]=\int_{-\infty}^\infty\mathcal{N}\left(x|\mu,\sigma^2\right)x\mathrm{d}x=\mu E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ
二阶矩: E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 \mathbb{E}[x^2]=\int_{-\infty}^{\infty}\mathcal{N}\left(x|\mu,\sigma^2\right)x^2\mathrm{d}x=\mu^2+\sigma^2 E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2
方差: v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 \mathrm{var}[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2=\sigma^2 var[x]=E[x2]−E[x]2=σ2
精度:方差的倒数
标准差:方差的平方根
众数:分布的最大值
高斯分布的似然函数
高斯分布的似然函数,由红色曲线表示。这里,黑点表示数据集 { x n } \{x_n\} {xn}的值,下面的公式表示似然函数对应于蓝色值得乘积。最大化似然函数涉及到调节高斯分布的均值和方差,使得这个乘积最大。
高斯分布的似然函数:
p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N\mathcal{N}\left(x_n|\mu,\sigma^2\right) p(x∣μ,σ2)=n=1∏NN(xn∣μ,σ2)
有一个观测的数据集 x = ( x 1 , . . . , x N ) T x=(x_1,...,x_N)^T x=(x1,...,xN)T,表示标量变量 x x x的N次观测
-
最大化似然函数
数据: x = ( x 1 , . . . , x N ) T x=(x_1,...,x_N)^T x=(x1,...,xN)T t = ( t 1 , . . . , t N ) T t=(t_1,...,t_N)^T t=(t1,...,tN)T似然函数: p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N\mathcal{N}\left(x_n|\mu,\sigma^2\right) p(x∣μ,σ2)=∏n=1NN(xn∣μ,σ2)
N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}\left(x|\mu,\sigma^2\right)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\} N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}(高斯分布)
取对数: ln p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 ln σ 2 − N 2 ln ( 2 π ) \begin{aligned}\ln p\left(\mathbf{x}|\mu,\sigma^2\right)=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi)\end{aligned} lnp(x∣μ,σ2)=−2σ21n=1∑N(xn−μ)2−2Nlnσ2−2Nln(2π)
μ M L = 1 N ∑ n = 1 N x n \mu_{\mathrm{ML}}=\frac{1}{N}\sum_{n=1}^{N}x_{n} μML=N1∑n=1Nxn σ ML 2 = 1 N ∑ n = 1 N ( x n − μ ML ) 2 \begin{aligned}\sigma_{\text{ML}}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{\text{ML}})^2\end{aligned} σML2=N1n=1∑N(xn−μML)2
E [ μ M L ] = μ \mathbb{E}[\mu_{ML}]=\mu E[μML]=μ E [ σ M L 2 ] = ( N − 1 N ) σ 2 \mathbb{E}[\sigma_{ML}^2]=\left(\frac{N-1}N\right)\sigma^2 E[σML2]=(NN−1)σ2
最大似然的偏移问题是在多项式曲线拟合问题中遇到的过拟合问题的核心
最大似然曲线拟合
重新考察曲线拟合问题:
给定 x x x的条件下 t t t的高斯条件概率分布:
分布的均值为 y ( x , w ) y(x,w) y(x,w)
y ( x , w ) = w 0 + w 1 x + w 2 x 2 + … + w M x M = ∑ j = 0 M w j x j y(x,\boldsymbol{w})=w_0+w_1x+w_2x^2+\ldots+w_Mx^M=\sum_{j=0}^Mw_jx^j y(x,w)=w0+w1x+w2x2+…+wMxM=j=0∑Mwjxj
最大似然 估计参数 w w w和 β \beta β:
数据: x = ( x 1 , … , x N ) T \mathbf{x}=(x_1,\ldots,x_N)^T x=(x1,…,xN)T t = ( t 1 , … , t N ) T \mathbf{t}=(t_1,\ldots,t_N)^T t=(t1,…,tN)T
似然函数: p ( t ∣ x , w , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N}\mathcal{N}\left(t_{n}|y(x_{n},\mathbf{w}),\beta^{-1}\right) p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)
取对数: ln p ( t ∣ x , w , β ) = − β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 ⏟ β E ( w ) + N 2 ln β − N 2 ln ( 2 π ) \operatorname{ln}p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=-\underbrace{\frac{\beta}{2}\sum_{n=1}^{N}\left\{y(x_{n},\mathbf{w})-t_{n}\right\}^{2}}_{\beta E(\mathbf{w})}+\frac{N}{2}\operatorname{ln}\beta-\frac{N}{2}\operatorname{ln}(2\pi) lnp(t∣x,w,β)=−βE(w) 2βn=1∑N{y(xn,w)−tn}2+2Nlnβ−2Nln(2π)
通过最小化平方和误差确定$w_{ML}$
- 对于 w w w:最小: 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 \frac12\sum_{n=1}^N\left\{y(x_n,\mathbf{w})-t_n\right\}^2 21∑n=1N{y(xn,w)−tn}2
- 对于 β \beta β: 1 β M L = 1 N ∑ n = 1 N { y ( x n , w M L ) − t n } 2 \frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N}\sum_{n=1}^{N}\left\{y(x_{n},\mathbf{w}_{\mathrm{ML}})-t_{n}\right\}^{2} βML1=N1∑n=1N{y(xn,wML)−tn}2
最大似然 预测分布:
p ( t ∣ x , w ML , β ML ) = N ( t ∣ y ( x , w ML ) , β ML − 1 ) \begin{aligned}p(t|x,\mathbf{w}_{\text{ML}},\beta_{\text{ML}})=\mathcal{N}\left(t|y(x,\mathbf{w}_{\text{ML}}),\beta_{\text{ML}}^{-1}\right)\end{aligned} p(t∣x,wML,βML)=N(t∣y(x,wML),βML−1)
最大后验MAP(贝叶斯)曲线拟合
引入 w w w上的先验分布:
p ( w ∣ α ) = N ( w ∣ 0 , α − 1 I ) = ( α 2 π ) ( M + 1 ) / 2 exp { − α 2 w T w } p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I})=\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\operatorname{exp}\left\{-\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} p(w∣α)=N(w∣0,α−1I)=(2πα)(M+1)/2exp{−2αwTw}
最大: p ( w ∣ x , t , α , β ) ∝ p ( t ∣ x , w , β ) p ( w ∣ α ) p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α) 最大后验
相当于→
最小: β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + α 2 w T w \frac\beta2\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac\alpha2\boldsymbol{w}^T\boldsymbol{w} 2β∑n=1N{y(xn,w)−tn}2+2αwTw
最大化后验概率 等价于最小化 正则化的平方和误差函数
正则化参数为 λ = α β \lambda=\frac\alpha\beta λ=βα