面试快速复习（三）：概率论与数理统计

最新推荐文章于 2024-08-11 21:15:23 发布

锌a

最新推荐文章于 2024-08-11 21:15:23 发布

阅读量2.6k

点赞数 9

分类专栏：机器学习计算机视觉：从0基础开始的奋斗历程文章标签：概率论机器学习人工智能

本文链接：https://blog.csdn.net/qq_43601378/article/details/125936338

版权

计算机视觉：从0基础开始的奋斗历程同时被 2 个专栏收录

35 篇文章

订阅专栏

机器学习

22 篇文章

订阅专栏

概率论复习

1.似然函数与极大似然估计

似然函数

什么是似然函数： $L(\theta|x) = f(x|\theta)$

$x$ 是随机变量 $X$ 的取值，是已知的， $\theta$ 是未知参数

$f(x|\theta)$ 是给定 $\theta$ 下的关于 $x$ 联合密度函数，似然函数是关于 $\theta$ 的函数

$f(x|\theta) = P_\theta(X=x)$ 表示在参数 $\theta$ 的下 $X = x$ 的可能性

对于似然函数而言，如果在 $x$ 给定的情况下，有如下样本关系（离散情况下）：
$L(\theta_1|x) = P_{\theta_1}(X=x) > P_{\theta_2}(X=x) = L(\theta_2|x)$
那说明，在参数 $\theta_1$ 下 $X$ 取到 $x$ 的概率大于 $\theta_2$

连续情况下，对于给定的足够小的 $\epsilon$ ，其在 $(x-\epsilon,x+\epsilon)$ 内的概率为：
$P_\theta(x-\epsilon<X<x+\epsilon) = \int_{x-\epsilon}^{x+\epsilon}f(x|\theta)dx \approx 2\epsilon(x|\theta) = 2\epsilon L(\theta|x)$
其比较结果与离散一样（互相比较的时候约去 $\epsilon$ ）

概率表示的是在给定参数 $\theta$ 时， $X = x$ 的可能性
似然表示的是在给定样本 $X = x$ 时，参数 $\theta$ 的可能性

极大似然估计

在一次抽样中，得到观测值 $x_1,x_2,..,x_n$ ，选取 $\theta^{'}(x)$ 作为 $\theta$ 的估计值，使得 $\theta = \theta^{'}(x_1,x_2,..,x_n)$ 时样本出现概率最大

目的：找使得样本出现可能性最大的参数 $\theta$

似然函数确立

离散： $L(\theta) = \displaystyle\prod_{i=1}^n p(x_i;\theta)$
连续： $L(\theta) = \displaystyle\prod_{i=1}^n f(x_i;\theta)$

极大似然估计：什么样的 $\theta$ 使得似然函数值越大越好
$L(x_1,x_2,...,x_n;\hat \theta) = \max_\theta L(x_1,x_2,...,x_n;\theta)$
求解路线：

构造似然函数 $L(\theta)$
对数似然函数 $L(\theta)$ -> 累乘变累加
求偏导 $\frac{\partial lnL}{\partial \theta} = 0$
求解 $\theta$

2.基本概念

频率与概率

N次试验中发生了n次结果A，那么：

频率： $f_n(A) = \frac{n}{N}$

概率： $f_n(A)$ 稳定时的值 $P (A) = p$

古典概型

试验中事件是有限的，出现每个事件的概率是相同的，那么就有：

$\frac{A所包含的事件数量}{事件的总数}$

条件概率

$P (B)$ 是在总的样本空间下B发生的概率，而 $P (B ∣ A)$ 相当于A先发生了然后发生B的概率，即把A看做新的样本空间求AB同时发生的概率

即根据定义：
$\frac{n(AB)}{n(A)} = \frac{n(AB)/N}{n(AB)/N} = \frac{P(AB)}{P(A)}$
其中 $N$ 是总样本数， $n (A)$ 指 $A$ 包含的样本数

$P (B ∣ A)$ 和 $P (A B)$ 的相同点和不同点：

相同点：A、B都发生了
不同点： $P (B ∣ A)$ 中事件A成为样本空间，而 $P (A ∣ B)$ 样本空间仍为总的样本空间 $\Omega$

独立性

$P (B ∣ A) = P (B)$ 或 $P (A ∣ B) = P (A)$ 时，称A、B相互独立

独立时： $P (A B) = P (A) P (B)$

值得注意的是：相互独立并不等于两两独立

重复独立实验：在相同条件下，将试验重复进行，每次试验的结果不受其他各次实验的结果影响

n重伯努利实验：一次实验的结果只有 $A$ 和 $\bar A$ ，在相同的情况下降试验独立重复 $n$ 次

在n次伯努利实验中事件A刚好发生k次的概率
$P_n(k) = C_n^kp^kq^{n-k}, k = 0,1,...,n$
其中 $q = 1 - p$

二维随机变量

联合分布函数 $P{(X\leq x)} \bigcap (Y\leq y)$ ，表示随机点(X,Y)在以(x,y)为顶点且位于该店左下方无穷矩阵内的概率

则有：
$P(x_1<X\leq x_2, \ y_1<Y\leq y_2) = F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)$

离散型

联合概率分布（可以画成表格）
$P\{X=x_i,Y=y_j\} = P(x_i,y_j) = p_{ij},\ \ \ i,j = 1,2,...$
且有 $\displaystyle\sum_{i=1}^\infty \displaystyle\sum_{j=1}^\infty p_{ij} = 1$

连续型

$KaTeX parse error: Expected group after '_' at position 26: …n G) = \int\int_̲\limits{G} f(x,…$

其中 $f (x, y)$ 是联合概率密度， $G$ 是 $x, y$ 围成的区域

边缘分布

二维随机变量 $(X, Y)$ 作为整体，分布函数为 $F (x, y)$ ，边缘分布函数记为 $F_X(x),F_Y(y)$

在分布函数 $F (x, y)$ 中令 $y\to +\infty$ 就可以得到 $F_X(x)$

离散型

$P\{Y=y_j\} = P\{X<+\infty, Y=y_j\} = \displaystyle\sum_{i=1}^{\infty}p_{ij}$ ，记为 $p_{·j}$

即列成二维表格后的某一行或某一列加起来

连续型

边缘概率密度为：

$f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy$
$f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx$

而分布函数：

$F_X(x) = F(x,+\infty) = \int_{-\infty}^x\int_{-\infty}^{+\infty}f(t,y)dy dt = \int_{-\infty}^x f_X(t)dt$
$F_Y(y) = \int_{-\infty}^y f_Y(t)dt$

期望

一维

离散型：对于分布律 $P(X=x_k)=p_k, k=1,2,..$ ，若级数 $\displaystyle\sum_{k=1}^\infty x_kp_k$ 收敛，则期望 $\displaystyle\sum_{k=1}^\infty x_kp_k$
连续型：概率密度为 $f (x)$ ，若积分 $\int_{-\infty}^{+\infty}xf(x)dx$ 绝对收敛，则 $\int_{-\infty}^{+\infty}xf(x)dx$

二维

离散型： $P(X=x_i,Y=y_k) = p_{ij}$ ，则 $Z = g (X, Y)$ 的期望为： $\displaystyle\sum_{j=1}^\infty \displaystyle\sum_{i=1}^\infty g(x_i,y_j)p_{i,j}$
连续： $\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy$

一些性质

对于常数， $E (C) = C$
$E (CX) = CE (X)$
$E (X + Y) = E (X) + E (Y)$
如果 $X, Y$ 相互独立， $E (X Y) = E (X) E (Y)$

方差

$D(X) = E((X-E(X))^2) = E(X^2)-(E(X))^2$

大数定理

在实验不变的条件下，重复多少次，随机事件的频率近似于它的概率

马尔科夫不等式

$P(X\geq a) \leq\frac{E(X)}{a}$ ，其中 $x > 0, a > 0$

切比雪夫不等式

$\Large P\{|X-E(X)|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2}$

或者

$\Large P\{|X-E(X)|< \epsilon\} \geq 1-\frac{\sigma^2}{\epsilon^2}$

使用马尔科夫不等式推导切比雪夫不等式，有：

$P(|X-\mu|>a) \leq \frac{E(|X-\mu|)}{a}$ ，使用平方项消除绝对值，即有

$\Large P\{(X-\mu)^2\geq a^2\} \leq \frac{E((X-\mu)^2)}{a^2} = \frac{\sigma^2}{a^2}$

中心极限定理

样本的平均值约等于总体的平均值，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布

最大后验概率估计

优化目标： $\hat \mu_{MAP} = arg\max_\mu p(\mu|X)$

主要根据贝叶斯公式
$\begin{align} \hat \mu_{MAP} &= arg\max_{\mu} p(\mu|X)\\ &=arg\max_\mu \frac{p(X|\mu)p(\mu)}{p(X)}\\ &=arg\max_\mu p(X|\mu)p(\mu) \end{align}$
其中 $p(X|\mu)$ 即似然函数， $p(\mu)$ 是先验知识（比如服从什么分布）