机器学习常用的概率知识

最新推荐文章于 2022-06-07 11:17:48 发布

有梦想的雨

最新推荐文章于 2022-06-07 11:17:48 发布

阅读量750

点赞数 1

分类专栏： PRML 文章标签：机器学习概率论深度学习

本文链接：https://blog.csdn.net/qq_41536160/article/details/122453406

版权

PRML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述

以上图为例，实验进行的总次数为 $N$ ， $n_{ij}$ 表示在 $x_i,y_j$ 条件下的频数，有： $c_i=\sum_j n_{ij}$ ， $r_j=\sum_i n_{ij}$ ， $\displaystyle p(X=x_i)=\frac{c_{i}}{N}$ ， $\displaystyle p(Y=y_j)=\frac{r_{j}}{N}$ ；

联合概率： $\displaystyle p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}$ ；

条件概率： $\displaystyle p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}$ ；

计算法则

概率求和法则： $\displaystyle p(X)=\sum_Y p(X,Y)$ ；
概率求积法则： $\displaystyle p(X,Y)=p(Y|X)p(X)$

贝叶斯理论：

$\displaystyle p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$ ，

其中 $P (Y ∣ X)$ 被称为后验概率， $P (X ∣ Y)$ 被称为似然函数（类概率密度）， $P (Y)$ 被称为先验概率， $\displaystyle p(X)=\sum_Y p(X|Y)p(Y)$ 可被视为正则项因子（为一常数）；

概率密度：

在这里插入图片描述

一变量 $x$ 落入区间 $(x,x+\delta x)$ 的概率记为： $p(x)\cdot\delta x$ ，其中 $\delta x\to 0$ ， $p (x)$ 记为概率密度；则 $x$ 落入区间 $(a, b)$ 的概率为： $\displaystyle P(x\in(a,b))=\int^b_ap(x)dx$ ，且有 $p(x)\ge0;\displaystyle \int^{\infty}_{-\infty}p(x)dx=1$

雅克比因子

在变量非线性变化的情况下，由于雅可比因子的存在，概率密度与简单函数的转换有所不同。例如，考虑一个变化的变量 $x = g (y)$ ，则函数 $f (x)$ 变为 $\tilde f(y)=f(g(y))$ ，现在考虑概率密度 $p_x(x)$ 及与之对应的新的变量 $y$ 的概率密度 $p_y(y)$ ，他们是不同的。

对于足够小的 $\delta x$ ，当变量落入区间 $(x,x+\delta x)$ 使，可被转换至 $(y,y+\delta y)$ ，其中 $p_x(x)\cdot\delta x\approx p_y(y)\cdot\delta y$ ，因此，可以得到： $\displaystyle p_y(y)=p_x(x)\cdot|\frac{dx}{dy}|=p_x(g(y))\cdot|g'(y)|$

这一特性的结果就导致最大概率密度这一概念是依赖于变量的选择的。

期望和方差

期望

对连续函数，有期望 $\displaystyle\mathbb E[f]=\int p(x)f(x)dx$ ；

而对于离散值，则有 $\displaystyle\mathbb E[f]=\sum_x p(x)f(x)$ ；
而条件期望有： $\displaystyle\mathbb E_x[f|y]=\sum_x p(x|y)f(x)$ ；

方差

对变量 $x$ 的方差，有 $var[x]=\mathbb E[(x-\mathbb E[x])^2]=\mathbb E[x^2]-\mathbb E^2[x]$ ；

而对函数 $f (x)$ ，其方差则为： $var[x]=\mathbb E[(f(x)-\mathbb E[f(x)])^2]=\mathbb E[f^2(x)]-\mathbb E^2[f(x)]$ ；

对变量 $x, y$ ，他们的协方差是 $cov[x,y]=\mathbb E_{x,y}[(x-\mathbb E[x])(y-\mathbb E[y])]=\mathbb E_{x,y}[xy]-\mathbb E[x]\cdot\mathbb E[y]$ ；

若对于向量 $\mathbf x,\mathbf y$ ，他们的协方差则为一矩阵： $cov[\mathbf x,\mathbf y]=\mathbb E_{\mathbf x,\mathbf y}[(\mathbf x-\mathbb E[\mathbf x])(\mathbf y^T-\mathbb E[\mathbf y^T])]=\mathbb E_{\mathbf x,\mathbf y}[\mathbf x\mathbf y^T]-\mathbb E[\mathbf x]\cdot\mathbb E[\mathbf y^T]$

典型分布

1.高斯分布

$\displaystyle N(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\cdot exp\{-\frac{1}{2\sigma^2}\cdot(x-\mu)^2\}$

高斯分布的性质有：
（1） $\displaystyle \int^{\infty}_{-\infty}N(x|\mu,\sigma^2)dx=1$

（2） $\displaystyle \mathbb E[x]=\int^{\infty}_{-\infty}N(x|\mu,\sigma^2)xdx=\mu$

（3） $\displaystyle \mathbb E[x^2]=\int^{\infty}_{-\infty}N(x|\mu,\sigma^2)x^2dx=\mu^2+\sigma^2$

（4） $var[x]=\mathbb E[x^2]-\mathbb E^2[x]=\sigma^2$

2.多维高斯分布

$\displaystyle N(\mathbf x|\mathbf u,\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\cdot exp\{-\frac{1}{2}(\mathbf x-\mathbf u)^T\Sigma^{-1}(\mathbf x-\mathbf u)\}$