机器学习复习第二章

最新推荐文章于 2024-08-20 18:45:43 发布

heikee_g

最新推荐文章于 2024-08-20 18:45:43 发布

阅读量537

点赞数 10

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/heikegrr/article/details/138748885

版权

文章目录

第二章概率分布与参数估计
- 概率论

第二章概率分布与参数估计

PRML三大基础理论

概率论决策论信息论

概率论

定义：两大观点（贝叶斯方法 vs. 频率论方法）

（1）概率论方法：通过大量独立实验将概率解释为统计均值（大数定律）。 ****

（2）贝叶斯方法：将概率解释为信念度（degree of belief）。当考虑的试验次数非常少的时候，贝叶斯方法的解释非常有用。此外，贝叶斯理论将我们对于随机过程的先验知识纳入考虑，当我们获得新数据的时候，这个先验的概率分布就会被更新到后验分布中。

概率论基本概念

边缘概率、联合概率、条件概率

在这里插入图片描述

边缘概率（Marginal Probability）

$p(X=x_i)=\frac{c_i}{N}$

联合概率（Joint Probability）

$p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}$

条件概率（Conditional Probability）

$p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}$

概率论法则

加法法则、乘法法则

在这里插入图片描述

加法法则：

$p(X=x_i)=\frac{c_i}{N}=\frac{1}{N}\sum_{j=1}^{L}n_{ij}=\sum_{j=1}^Lp(X=x_i,Y=y_j)$

即 $p(X)=\sum_Yp(X,Y)$

乘法法则：

$\begin{matrix}p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot\frac{c_i}{N}\end{matrix}=p(Y=y_j|X=x_i)p(X=x_i)$

即 $p (X, Y) = p (Y ∣ X) p (X)$

贝叶斯定理

在这里插入图片描述

Y代表一种假设，x是观察结果。

称 $p (Y)$ 为先验概率，是在还没有观察 $X$ 的情况下，Y自身的概率

称 $p (Y ∣ X)$ 为后验概率，表示在观察到了X的情况下，Y的条件概率

称 $\mathcal L(X|Y)=C\cdot p(X|Y)$ 为似然函数，C为常数，因为似然函数的绝对数值没有意义

概率密度

离散变量的概率概念可扩展到连续变量的概率分布 $* p (x) *$

$P(z)=\int_{-\infty}^zp(x)\mathrm{d}x$

$P(x\in(a,b))=\int_a^bp(x)\mathrm{d}x$

$p(x)\geqslant0\quad\displaystyle\int_{-\infty}^{\infty}p(x)\mathrm dx=1$

x位于区间(x, x + δx)的概率为p(x)δx，其中δx →0。

概率密度*p(x)可以表示为**累计密度函数P (x)***的导数。

贝叶斯概率

在这里插入图片描述

在观察到数据之前，我们有⼀些关于参数w的假设，以先验概率*p(w)*的形式给出。

观测数据 $D=\{t_1,...,t_N\}$ 的效果可通过条件概率*p(D|w)*表达

通过后验概率p(w|D)，在观测到D之后估计w的不确定性**。**

p(D|w)由观测数据集D来估计，是参数向量w的函数，被称为似然函数（likelihood function），表达了在不同的参数向量w下，观测数据出现的可能性的大小

频率学家：w被认为是⼀个固定的参数，常用最大似然（maximum likelihood）估计，其中 w的值是使p(D|w)达到最大值的w值

贝叶斯观点：对先验概率的包含是很自然的，只有一个数据集D（实际观测到的数据集），参数的不确定性通过w的后验概率分布表达，其中w的值是使p(w|D)达到最大值的w值

高斯分布

$\mathcal{N}\left(x|\mu,\sigma^2\right)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}$

在这里插入图片描述

均值： $\mathbb{E}[x]=\int_{-\infty}^\infty\mathcal{N}\left(x|\mu,\sigma^2\right)x\mathrm{d}x=\mu$

二阶矩： $\mathbb{E}[x^2]=\int_{-\infty}^{\infty}\mathcal{N}\left(x|\mu,\sigma^2\right)x^2\mathrm{d}x=\mu^2+\sigma^2$

方差： $\mathrm{var}[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2=\sigma^2$

精度：方差的倒数

标准差：方差的平方根

众数：分布的最大值

高斯分布的似然函数

在这里插入图片描述

高斯分布的似然函数，由红色曲线表示。这里，黑点表示数据集 ${x_n\}$ 的值，下面的公式表示似然函数对应于蓝色值得乘积。最大化似然函数涉及到调节高斯分布的均值和方差，使得这个乘积最大。

高斯分布的似然函数：

$p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N\mathcal{N}\left(x_n|\mu,\sigma^2\right)$

有一个观测的数据集 $x=(x_1,...,x_N)^T$ ，表示标量变量 $x$ 的N次观测

最大化似然函数
数据： $x=(x_1,...,x_N)^T$ $t=(t_1,...,t_N)^T$

似然函数： $p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^N\mathcal{N}\left(x_n|\mu,\sigma^2\right)$

$\mathcal{N}\left(x|\mu,\sigma^2\right)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}$ （高斯分布）

取对数： $\begin{aligned}\ln p\left(\mathbf{x}|\mu,\sigma^2\right)=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln\sigma^2-\frac{N}{2}\ln(2\pi)\end{aligned}$

$\mu_{\mathrm{ML}}=\frac{1}{N}\sum_{n=1}^{N}x_{n}$ $\begin{aligned}\sigma_{\text{ML}}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{\text{ML}})^2\end{aligned}$

$\mathbb{E}[\mu_{ML}]=\mu$ $\mathbb{E}[\sigma_{ML}^2]=\left(\frac{N-1}N\right)\sigma^2$

最大似然的偏移问题是在多项式曲线拟合问题中遇到的过拟合问题的核心

最大似然曲线拟合

重新考察曲线拟合问题：

给定 $x$ 的条件下 $t$ 的高斯条件概率分布：

在这里插入图片描述

分布的均值为 $y (x, w)$

$y(x,\boldsymbol{w})=w_0+w_1x+w_2x^2+\ldots+w_Mx^M=\sum_{j=0}^Mw_jx^j$

最大似然估计参数 $w$ 和 $\beta$ ：

数据： $\mathbf{x}=(x_1,\ldots,x_N)^T$ $\mathbf{t}=(t_1,\ldots,t_N)^T$

似然函数： $p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N}\mathcal{N}\left(t_{n}|y(x_{n},\mathbf{w}),\beta^{-1}\right)$

取对数： $\operatorname{ln}p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=-\underbrace{\frac{\beta}{2}\sum_{n=1}^{N}\left\{y(x_{n},\mathbf{w})-t_{n}\right\}^{2}}_{\beta E(\mathbf{w})}+\frac{N}{2}\operatorname{ln}\beta-\frac{N}{2}\operatorname{ln}(2\pi)$

   通过最小化平方和误差确定$w_{ML}$

对于 $w$ ：最小： $\frac12\sum_{n=1}^N\left\{y(x_n,\mathbf{w})-t_n\right\}^2$
对于 $\beta$ ： $\frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N}\sum_{n=1}^{N}\left\{y(x_{n},\mathbf{w}_{\mathrm{ML}})-t_{n}\right\}^{2}$

最大似然预测分布：

$\begin{aligned}p(t|x,\mathbf{w}_{\text{ML}},\beta_{\text{ML}})=\mathcal{N}\left(t|y(x,\mathbf{w}_{\text{ML}}),\beta_{\text{ML}}^{-1}\right)\end{aligned}$

在这里插入图片描述

最大后验MAP（贝叶斯）曲线拟合

引入 $w$ 上的先验分布：

$p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I})=\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\operatorname{exp}\left\{-\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\}$

最大： $p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)$ 最大后验

相当于→

最小： $\frac\beta2\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac\alpha2\boldsymbol{w}^T\boldsymbol{w}$

最大化后验概率等价于最小化正则化的平方和误差函数

正则化参数为 $\lambda=\frac\alpha\beta$

在这里插入图片描述

heikee_g

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习复习第二章

最大后验估计、最大似然估计
复制链接

扫一扫

机器学习复习第二章

文章目录

第二章 概率分布与参数估计

概率论

定义：两大观点（贝叶斯方法 vs. 频率论方法）

概率论基本概念

概率论法则

贝叶斯定理

概率密度

贝叶斯概率

高斯分布

高斯分布的似然函数

最大似然曲线拟合

最大后验MAP（贝叶斯）曲线拟合

第二章概率分布与参数估计