机器学习复习第二章

第二章 概率分布与参数估计

  • PRML三大基础理论

概率论 决策论 信息论

概率论

定义:两大观点(贝叶斯方法 vs. 频率论方法)

(1)概率论方法: 通过大量独立实验将概率解释为统计均值(大数定律)。 ****

(2)贝叶斯方法:将概率解释为信念度(degree of belief)。当考虑的试验次数非常少的时候,贝叶斯方法的解释非常有用。此外,贝叶斯理论将我们对于随机过程的先验知识纳入考虑,当我们获得新数据的时候,这个先验的概率分布就会被更新到后验分布中。

概率论基本概念

边缘概率、联合概率、条件概率

在这里插入图片描述

边缘概率(Marginal Probability)

p ( X = x i ) = c i N p(X=x_i)=\frac{c_i}{N} p(X=xi)=Nci

联合概率(Joint Probability)

p ( X = x i , Y = y j ) = n i j N p(X=x_i,Y=y_j)=\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij

条件概率(Conditional Probability)

p ( Y = y j ∣ X = x i ) = n i j c i p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i} p(Y=yjX=xi)=cinij

概率论法则

加法法则、乘法法则

在这里插入图片描述

加法法则:

p ( X = x i ) = c i N = 1 N ∑ j = 1 L n i j = ∑ j = 1 L p ( X = x i , Y = y j ) p(X=x_i)=\frac{c_i}{N}=\frac{1}{N}\sum_{j=1}^{L}n_{ij}=\sum_{j=1}^Lp(X=x_i,Y=y_j) p(X=xi)=Nci=N1j=1Lnij=j=1Lp(X=xi,Y=yj)

p ( X ) = ∑ Y p ( X , Y ) p(X)=\sum_Yp(X,Y) p(X)=Yp(X,Y)

乘法法则:

p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) \begin{matrix}p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot\frac{c_i}{N}\end{matrix}=p(Y=y_j|X=x_i)p(X=x_i) p(X=xi,Y=yj)=Nnij=cinijNci=p(Y=yjX=xi)p(X=xi)

p ( X , Y ) = p ( Y ∣ X ) p ( X ) p(X,Y)=p(Y|X)p(X) p(X,Y)=p(YX)p(X)

贝叶斯定理

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Y代表一种假设,x是观察结果。

p ( Y ) p(Y) p(Y)为先验概率,是在还没有观察 X X X的情况下,Y自身的概率

p ( Y ∣ X ) p(Y|X) p(YX)为后验概率,表示在观察到了X的情况下,Y的条件概率

L ( X ∣ Y ) = C ⋅ p ( X ∣ Y ) \mathcal L(X|Y)=C\cdot p(X|Y) L(XY)=Cp(XY)为似然函数,C为常数,因为似然函数的绝对数值没有意义

概率密度

离散变量的概率概念可扩展到连续变量的概率分布 ∗ p ( x ) ∗ *p(x)* p(x)

P ( z ) = ∫ − ∞ z p ( x ) d x P(z)=\int_{-\infty}^zp(x)\mathrm{d}x P(z)=zp(x)dx

P ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x P(x\in(a,b))=\int_a^bp(x)\mathrm{d}x P(x(a,b))=abp(x)dx

p ( x ) ⩾ 0 ∫ − ∞ ∞ p ( x ) d x = 1 p(x)\geqslant0\quad\displaystyle\int_{-\infty}^{\infty}p(x)\mathrm dx=1 p(x)0p(x)dx=1

x位于区间(x, x + δx)的概率为p(x)δx,其中δx 0。

概率密度*p(x)可以表示为**累计密度函数P (x)***的导数。

贝叶斯概率

在这里插入图片描述

在观察到数据之前,我们有⼀些关于参数w的假设,以先验概率*p(w)*的形式给出。

观测数据 D = { t 1 , . . . , t N } D=\{t_1,...,t_N\} D={t1,...,tN}的效果可通过条件概率*p(D|w)*表达

通过后验概率p(w|D),在观测到D之后估计w的不确定性**。**

p(D|w)由观测数据集D来估计,是参数向量w的函数,被称为似然函数(likelihood function),表达了在不同的参数向量w下,观测数据出现的可能性的大小

频率学家:w被认为是⼀个固定的参数,常用最大似然(maximum likelihood)估计,其中 w的值是使p(D|w)达到最大值的w

贝叶斯观点:对先验概率的包含是很自然的,只有一个数据集D(实际观测到的数据集),参数的不确定性通过w的后验概率分布表达,其中w的值是使p(w|D)达到最大值的w

高斯分布

N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}\left(x|\mu,\sigma^2\right)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\} N(xμ,σ2)=(2πσ2)1/21exp{2σ21(xμ)2}

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

均值: E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ \mathbb{E}[x]=\int_{-\infty}^\infty\mathcal{N}\left(x|\mu,\sigma^2\right)x\mathrm{d}x=\mu E[x]=N(xμ,σ2)xdx=μ

二阶矩: E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 \mathbb{E}[x^2]=\int_{-\infty}^{\infty}\mathcal{N}\left(x|\mu,\sigma^2\right)x^2\mathrm{d}x=\mu^2+\sigma^2 E[x2]=N(xμ,σ2)x2dx=μ2+σ2

方差: v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 \mathrm{var}[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2=\sigma^2 var[x]=E[x2]E[x]2=σ2

精度:方差的倒数

标准差:方差的平方根

众数:分布的最大值

高斯分布的似然函数

在这里插入图片描述

高斯分布的似然函数,由红色曲线表示。这里,黑点表示数据集 { x n } \{x_n\} {xn}的值,下面的公式表示似然函数对应于蓝色值得乘积。最大化似然函数涉及到调节高斯分布的均值和方差,使得这个乘积最大。

高斯分布的似然函数:

p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N\mathcal{N}\left(x_n|\mu,\sigma^2\right) p(xμ,σ2)=n=1NN(xnμ,σ2)

有一个观测的数据集 x = ( x 1 , . . . , x N ) T x=(x_1,...,x_N)^T x=(x1,...,xN)T,表示标量变量 x x x的N次观测

  • 最大化似然函数
    数据: x = ( x 1 , . . . , x N ) T x=(x_1,...,x_N)^T x=(x1,...,xN)T t = ( t 1 , . . . , t N ) T t=(t_1,...,t_N)^T t=(t1,...,tN)T

    似然函数: p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N\mathcal{N}\left(x_n|\mu,\sigma^2\right) p(xμ,σ2)=n=1NN(xnμ,σ2)

    N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}\left(x|\mu,\sigma^2\right)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\} N(xμ,σ2)=(2πσ2)1/21exp{2σ21(xμ)2}(高斯分布)

    取对数: ln ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 ln ⁡ σ 2 − N 2 ln ⁡ ( 2 π ) \begin{aligned}\ln p\left(\mathbf{x}|\mu,\sigma^2\right)=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi)\end{aligned} lnp(xμ,σ2)=2σ21n=1N(xnμ)22Nlnσ22Nln(2π)

    μ M L = 1 N ∑ n = 1 N x n \mu_{\mathrm{ML}}=\frac{1}{N}\sum_{n=1}^{N}x_{n} μML=N1n=1Nxn σ ML 2 = 1 N ∑ n = 1 N ( x n − μ ML ) 2 \begin{aligned}\sigma_{\text{ML}}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{\text{ML}})^2\end{aligned} σML2=N1n=1N(xnμML)2

    E [ μ M L ] = μ \mathbb{E}[\mu_{ML}]=\mu E[μML]=μ E [ σ M L 2 ] = ( N − 1 N ) σ 2 \mathbb{E}[\sigma_{ML}^2]=\left(\frac{N-1}N\right)\sigma^2 E[σML2]=(NN1)σ2

    最大似然的偏移问题是在多项式曲线拟合问题中遇到的过拟合问题的核心

最大似然曲线拟合

重新考察曲线拟合问题:

给定 x x x的条件下 t t t的高斯条件概率分布:

在这里插入图片描述

分布的均值为 y ( x , w ) y(x,w) y(x,w)

y ( x , w ) = w 0 + w 1 x + w 2 x 2 + … + w M x M = ∑ j = 0 M w j x j y(x,\boldsymbol{w})=w_0+w_1x+w_2x^2+\ldots+w_Mx^M=\sum_{j=0}^Mw_jx^j y(x,w)=w0+w1x+w2x2++wMxM=j=0Mwjxj

最大似然 估计参数 w w w β \beta β

数据: x = ( x 1 , … , x N ) T \mathbf{x}=(x_1,\ldots,x_N)^T x=(x1,,xN)T t = ( t 1 , … , t N ) T \mathbf{t}=(t_1,\ldots,t_N)^T t=(t1,,tN)T

似然函数: p ( t ∣ x , w , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N}\mathcal{N}\left(t_{n}|y(x_{n},\mathbf{w}),\beta^{-1}\right) p(tx,w,β)=n=1NN(tny(xn,w),β1)

取对数: ln ⁡ p ( t ∣ x , w , β ) = − β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 ⏟ β E ( w ) + N 2 ln ⁡ β − N 2 ln ⁡ ( 2 π ) \operatorname{ln}p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=-\underbrace{\frac{\beta}{2}\sum_{n=1}^{N}\left\{y(x_{n},\mathbf{w})-t_{n}\right\}^{2}}_{\beta E(\mathbf{w})}+\frac{N}{2}\operatorname{ln}\beta-\frac{N}{2}\operatorname{ln}(2\pi) lnp(tx,w,β)=βE(w) 2βn=1N{y(xn,w)tn}2+2Nlnβ2Nln(2π)

   通过最小化平方和误差确定$w_{ML}$
  • 对于 w w w:最小: 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 \frac12\sum_{n=1}^N\left\{y(x_n,\mathbf{w})-t_n\right\}^2 21n=1N{y(xn,w)tn}2
  • 对于 β \beta β 1 β M L = 1 N ∑ n = 1 N { y ( x n , w M L ) − t n } 2 \frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N}\sum_{n=1}^{N}\left\{y(x_{n},\mathbf{w}_{\mathrm{ML}})-t_{n}\right\}^{2} βML1=N1n=1N{y(xn,wML)tn}2

最大似然 预测分布:

p ( t ∣ x , w ML , β ML ) = N ( t ∣ y ( x , w ML ) , β ML − 1 ) \begin{aligned}p(t|x,\mathbf{w}_{\text{ML}},\beta_{\text{ML}})=\mathcal{N}\left(t|y(x,\mathbf{w}_{\text{ML}}),\beta_{\text{ML}}^{-1}\right)\end{aligned} p(tx,wML,βML)=N(ty(x,wML),βML1)

在这里插入图片描述

最大后验MAP(贝叶斯)曲线拟合

引入 w w w上的先验分布:

p ( w ∣ α ) = N ( w ∣ 0 , α − 1 I ) = ( α 2 π ) ( M + 1 ) / 2 exp ⁡ { − α 2 w T w } p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I})=\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\operatorname{exp}\left\{-\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} p(wα)=N(w0,α1I)=(2πα)(M+1)/2exp{2αwTw}

最大: p ( w ∣ x , t , α , β ) ∝ p ( t ∣ x , w , β ) p ( w ∣ α ) p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) p(wx,t,α,β)p(tx,w,β)p(wα) 最大后验

相当于→

最小: β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + α 2 w T w \frac\beta2\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac\alpha2\boldsymbol{w}^T\boldsymbol{w} 2βn=1N{y(xn,w)tn}2+2αwTw

最大化后验概率 等价于最小化 正则化的平方和误差函数

正则化参数为 λ = α β \lambda=\frac\alpha\beta λ=βα

在这里插入图片描述

在这里插入图片描述

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值