面试快速复习(三):概率论与数理统计

概率论复习

1.似然函数与极大似然估计

似然函数

什么是似然函数: L ( θ ∣ x ) = f ( x ∣ θ ) L(\theta|x) = f(x|\theta) L(θx)=f(xθ)

x x x是随机变量 X X X的取值,是已知的, θ \theta θ是未知参数

f ( x ∣ θ ) f(x|\theta) f(xθ)是给定 θ \theta θ下的关于 x x x联合密度函数,似然函数是关于 θ \theta θ的函数

f ( x ∣ θ ) = P θ ( X = x ) f(x|\theta) = P_\theta(X=x) f(xθ)=Pθ(X=x)表示在参数 θ \theta θ的下 X = x X=x X=x的可能性

对于似然函数而言,如果在 x x x给定的情况下,有如下样本关系(离散情况下):
L ( θ 1 ∣ x ) = P θ 1 ( X = x ) > P θ 2 ( X = x ) = L ( θ 2 ∣ x ) L(\theta_1|x) = P_{\theta_1}(X=x) > P_{\theta_2}(X=x) = L(\theta_2|x) L(θ1x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2x)
那说明,在参数 θ 1 \theta_1 θ1 X X X取到 x x x的概率大于 θ 2 \theta_2 θ2

连续情况下,对于给定的足够小的 ϵ \epsilon ϵ,其在 ( x − ϵ , x + ϵ ) (x-\epsilon,x+\epsilon) (xϵ,x+ϵ)内的概率为:
P θ ( x − ϵ < X < x + ϵ ) = ∫ x − ϵ x + ϵ f ( x ∣ θ ) d x ≈ 2 ϵ ( x ∣ θ ) = 2 ϵ L ( θ ∣ x ) P_\theta(x-\epsilon<X<x+\epsilon) = \int_{x-\epsilon}^{x+\epsilon}f(x|\theta)dx \approx 2\epsilon(x|\theta) = 2\epsilon L(\theta|x) Pθ(xϵ<X<x+ϵ)=xϵx+ϵf(xθ)dx2ϵ(xθ)=2ϵL(θx)
其比较结果与离散一样(互相比较的时候约去 ϵ \epsilon ϵ

  • 概率表示的是在给定参数 θ \theta θ时, X = x X=x X=x的可能性

  • 似然表示的是在给定样本 X = x X=x X=x时,参数 θ \theta θ的可能性

极大似然估计

在一次抽样中,得到观测值 x 1 , x 2 , . . , x n x_1,x_2,..,x_n x1,x2,..,xn,选取 θ ′ ( x ) \theta^{'}(x) θ(x)作为 θ \theta θ的估计值,使得 θ = θ ′ ( x 1 , x 2 , . . , x n ) \theta = \theta^{'}(x_1,x_2,..,x_n) θ=θ(x1,x2,..,xn)时样本出现 概率最大

目的:找使得样本出现可能性最大的参数 θ \theta θ

似然函数确立

  • 离散: L ( θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta) = \displaystyle\prod_{i=1}^n p(x_i;\theta) L(θ)=i=1np(xi;θ)
  • 连续: L ( θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta) = \displaystyle\prod_{i=1}^n f(x_i;\theta) L(θ)=i=1nf(xi;θ)

极大似然估计:什么样的 θ \theta θ使得似然函数值越大越好
L ( x 1 , x 2 , . . . , x n ; θ ^ ) = max ⁡ θ L ( x 1 , x 2 , . . . , x n ; θ ) L(x_1,x_2,...,x_n;\hat \theta) = \max_\theta L(x_1,x_2,...,x_n;\theta) L(x1,x2,...,xn;θ^)=θmaxL(x1,x2,...,xn;θ)
求解路线:

  • 构造似然函数 L ( θ ) L(\theta) L(θ)

  • 对数似然函数 l n L ( θ ) ln L(\theta) lnL(θ) -> 累乘变累加

  • 求偏导 ∂ l n L ∂ θ = 0 \frac{\partial lnL}{\partial \theta} = 0 θlnL=0

  • 求解 θ \theta θ

2.基本概念

频率与概率

N次试验中发生了n次结果A,那么:

频率: f n ( A ) = n N f_n(A) = \frac{n}{N} fn(A)=Nn

概率: f n ( A ) f_n(A) fn(A)稳定时的值 P ( A ) = p P(A)=p P(A)=p

古典概型

试验中事件是有限的,出现每个事件的概率是相同的,那么就有:

P ( A ) = A 所包含的事件数量 事件的总数 P(A) = \frac{A所包含的事件数量}{事件的总数} P(A)=事件的总数A所包含的事件数量

条件概率

P ( B ) P(B) P(B)是在总的样本空间下B发生的概率,而 P ( B ∣ A ) P(B|A) P(BA)相当于A先发生了然后发生B的概率,即把A看做新的样本空间求AB同时发生的概率

即根据定义:
P ( B ∣ A ) = n ( A B ) n ( A ) = n ( A B ) / N n ( A B ) / N = P ( A B ) P ( A ) P(B|A) = \frac{n(AB)}{n(A)} = \frac{n(AB)/N}{n(AB)/N} = \frac{P(AB)}{P(A)} P(BA)=n(A)n(AB)=n(AB)/Nn(AB)/N=P(A)P(AB)
其中 N N N是总样本数, n ( A ) n(A) n(A) A A A包含的样本数

P ( B ∣ A ) P(B|A) P(BA) P ( A B ) P(AB) P(AB)的相同点和不同点:

  • 相同点:A、B都发生了
  • 不同点: P ( B ∣ A ) P(B|A) P(BA)中事件A成为样本空间,而 P ( A ∣ B ) P(A|B) P(AB)样本空间仍为总的样本空间 Ω \Omega Ω

独立性

P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P(BA)=P(B) P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(AB)=P(A)时,称A、B相互独立

独立时: P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)

值得注意的是:相互独立并不等于两两独立

重复独立实验:在相同条件下,将试验重复进行,每次试验的结果不受其他各次实验的结果影响

n重伯努利实验:一次实验的结果只有 A A A A ˉ \bar A Aˉ,在相同的情况下降试验独立重复 n n n

在n次伯努利实验中事件A刚好发生k次的概率
P n ( k ) = C n k p k q n − k , k = 0 , 1 , . . . , n P_n(k) = C_n^kp^kq^{n-k}, k = 0,1,...,n Pn(k)=Cnkpkqnk,k=0,1,...,n
其中 q = 1 − p q = 1-p q=1p

二维随机变量

联合分布函数 F ( x , y ) = P ( X ≤ x ) ⋂ ( Y ≤ y ) F(x,y) = P{(X\leq x)} \bigcap (Y\leq y) F(x,y)=P(Xx)(Yy),表示随机点(X,Y)在以(x,y)为顶点且位于该店左下方无穷矩阵内的概率

则有:
P ( x 1 < X ≤ x 2 ,   y 1 < Y ≤ y 2 ) = F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) P(x_1<X\leq x_2, \ y_1<Y\leq y_2) = F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1) P(x1<Xx2, y1<Yy2)=F(x2,y2)F(x2,y1)F(x1,y2)+F(x1,y1)

离散型

联合概率分布(可以画成表格)
P { X = x i , Y = y j } = P ( x i , y j ) = p i j ,     i , j = 1 , 2 , . . . P\{X=x_i,Y=y_j\} = P(x_i,y_j) = p_{ij},\ \ \ i,j = 1,2,... P{X=xi,Y=yj}=P(xi,yj)=pij,   i,j=1,2,...
且有 ∑ i = 1 ∞ ∑ j = 1 ∞ p i j = 1 \displaystyle\sum_{i=1}^\infty \displaystyle\sum_{j=1}^\infty p_{ij} = 1 i=1j=1pij=1

连续型

KaTeX parse error: Expected group after '_' at position 26: …n G) = \int\int_̲\limits{G} f(x,…

其中 f ( x , y ) f(x,y) f(x,y)是联合概率密度, G G G x , y x,y x,y围成的区域

边缘分布

二维随机变量 ( X , Y ) (X,Y) (X,Y)作为整体,分布函数为 F ( x , y ) F(x,y) F(x,y),边缘分布函数记为 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX(x),FY(y)

在分布函数 F ( x , y ) F(x,y) F(x,y)中令 y → + ∞ y\to +\infty y+就可以得到 F X ( x ) F_X(x) FX(x)

离散型

P { Y = y j } = P { X < + ∞ , Y = y j } = ∑ i = 1 ∞ p i j P\{Y=y_j\} = P\{X<+\infty, Y=y_j\} = \displaystyle\sum_{i=1}^{\infty}p_{ij} P{Y=yj}=P{X<+,Y=yj}=i=1pij,记为 p ⋅ j p_{·j} pj

即列成二维表格后的某一行或某一列加起来

连续型

边缘概率密度为:

  • f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy fX(x)=+f(x,y)dy
  • f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx fY(y)=+f(x,y)dx

而分布函数:

  • F X ( x ) = F ( x , + ∞ ) = ∫ − ∞ x ∫ − ∞ + ∞ f ( t , y ) d y d t = ∫ − ∞ x f X ( t ) d t F_X(x) = F(x,+\infty) = \int_{-\infty}^x\int_{-\infty}^{+\infty}f(t,y)dy dt = \int_{-\infty}^x f_X(t)dt FX(x)=F(x,+)=x+f(t,y)dydt=xfX(t)dt
  • F Y ( y ) = ∫ − ∞ y f Y ( t ) d t F_Y(y) = \int_{-\infty}^y f_Y(t)dt FY(y)=yfY(t)dt

期望

一维
  • 离散型:对于分布律 P ( X = x k ) = p k , k = 1 , 2 , . . P(X=x_k)=p_k, k=1,2,.. P(X=xk)=pk,k=1,2,..,若级数 ∑ k = 1 ∞ x k p k \displaystyle\sum_{k=1}^\infty x_kp_k k=1xkpk收敛,则期望 E ( X ) = ∑ k = 1 ∞ x k p k E(X) = \displaystyle\sum_{k=1}^\infty x_kp_k E(X)=k=1xkpk

  • 连续型:概率密度为 f ( x ) f(x) f(x),若积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty}xf(x)dx +xf(x)dx绝对收敛,则 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X) = \int_{-\infty}^{+\infty}xf(x)dx E(X)=+xf(x)dx

二维
  • 离散型 : P ( X = x i , Y = y k ) = p i j P(X=x_i,Y=y_k) = p_{ij} P(X=xi,Y=yk)=pij,则 Z = g ( X , Y ) Z = g(X,Y) Z=g(X,Y)的期望 为: E ( Z ) = E [ g ( X , Y ) ] = ∑ j = 1 ∞ ∑ i = 1 ∞ g ( x i , y j ) p i , j E(Z) = E[g(X,Y)] = \displaystyle\sum_{j=1}^\infty \displaystyle\sum_{i=1}^\infty g(x_i,y_j)p_{i,j} E(Z)=E[g(X,Y)]=j=1i=1g(xi,yj)pi,j

  • 连续: E ( Z ) = E ( g ( X , Y ) ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y E(Z) = E(g(X,Y)) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy E(Z)=E(g(X,Y))=++g(x,y)f(x,y)dxdy

一些性质
  • 对于常数, E ( C ) = C E(C) = C E(C)=C
  • E ( C X ) = C E ( X ) E(CX) = CE(X) E(CX)=CE(X)
  • E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y) = E(X)+E(Y) E(X+Y)=E(X)+E(Y)
  • 如果 X , Y X,Y X,Y相互独立, E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

方差

D ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − ( E ( X ) ) 2 D(X) = E((X-E(X))^2) = E(X^2)-(E(X))^2 D(X)=E((XE(X))2)=E(X2)(E(X))2

大数定理

在实验不变的条件下,重复多少次,随机事件的频率近似于它的概率

马尔科夫不等式

P ( X ≥ a ) ≤ E ( X ) a P(X\geq a) \leq\frac{E(X)}{a} P(Xa)aE(X),其中 x > 0 , a > 0 x>0, a>0 x>0,a>0

切比雪夫不等式

P { ∣ X − E ( X ) ∣ ≥ ϵ } ≤ σ 2 ϵ 2 \Large P\{|X-E(X)|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2} P{XE(X)ϵ}ϵ2σ2

或者

P { ∣ X − E ( X ) ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 \Large P\{|X-E(X)|< \epsilon\} \geq 1-\frac{\sigma^2}{\epsilon^2} P{XE(X)<ϵ}1ϵ2σ2

使用马尔科夫不等式推导切比雪夫不等式,有:

P ( ∣ X − μ ∣ > a ) ≤ E ( ∣ X − μ ∣ ) a P(|X-\mu|>a) \leq \frac{E(|X-\mu|)}{a} P(Xμ>a)aE(Xμ),使用平方项消除绝对值,即有

P { ( X − μ ) 2 ≥ a 2 } ≤ E ( ( X − μ ) 2 ) a 2 = σ 2 a 2 \Large P\{(X-\mu)^2\geq a^2\} \leq \frac{E((X-\mu)^2)}{a^2} = \frac{\sigma^2}{a^2} P{(Xμ)2a2}a2E((Xμ)2)=a2σ2

中心极限定理

样本的平均值约等于总体的平均值 ,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布

最大后验概率估计

优化目标: μ ^ M A P = a r g max ⁡ μ p ( μ ∣ X ) \hat \mu_{MAP} = arg\max_\mu p(\mu|X) μ^MAP=argmaxμp(μX)

主要根据贝叶斯公式
μ ^ M A P = a r g max ⁡ μ p ( μ ∣ X ) = a r g max ⁡ μ p ( X ∣ μ ) p ( μ ) p ( X ) = a r g max ⁡ μ p ( X ∣ μ ) p ( μ ) \begin{align} \hat \mu_{MAP} &= arg\max_{\mu} p(\mu|X)\\ &=arg\max_\mu \frac{p(X|\mu)p(\mu)}{p(X)}\\ &=arg\max_\mu p(X|\mu)p(\mu) \end{align} μ^MAP=argμmaxp(μX)=argμmaxp(X)p(Xμ)p(μ)=argμmaxp(Xμ)p(μ)
其中 p ( X ∣ μ ) p(X|\mu) p(Xμ)即似然函数, p ( μ ) p(\mu) p(μ)是先验知识(比如服从什么分布)

求解依然是加上log将累乘变成累加,相比于极大似然估计加上了先验知识

3.需要记住的各种分布

0-1分布

分布律为:

X10
Pp1-p

其中 E ( X ) = p E(X) = p E(X)=p D ( X ) = p ( 1 − p ) D(X) = p(1-p) D(X)=p(1p)

二项分布

一个随机事件只有两种可能,发生的概率为 p p p,不发生概率为 1 − p 1-p 1p

X为n次实验中事件发生的次数,则分布律:
P { X = k } = C n k p k ( 1 − p ) n − k P\{X=k\} = C_n^kp^k(1-p)^{n-k} P{X=k}=Cnkpk(1p)nk
其中 E ( X ) = n p E(X) = np E(X)=np D ( X ) = n p ( 1 − p ) D(X) = np(1-p) D(X)=np(1p)

泊松分布

事件发生k次的分布律:
P { X = k } = λ k k ! e − λ P\{X=k\} = \frac{\lambda^k}{k!}e^{-\lambda} P{X=k}=k!λkeλ
其中 E ( X ) = λ E(X) = \lambda E(X)=λ, D ( X ) = λ D(X) = \lambda D(X)=λ

均匀分布

概率密度:
f ( x ) = { 1 b − a ,       a < x < b 0 ,          其他 f(x) = \begin{cases} \frac{1}{b-a}, \ \ \ \ \ a<x<b\\ 0, \ \ \ \ \ \ \ \ \ 其他 \end{cases} f(x)={ba1,     a<x<b0,         其他
其中 E ( X ) = 1 2 ( a + b ) E(X) = \frac{1}{2}(a+b) E(X)=21(a+b) D ( X ) = ( b − a ) 2 12 D(X) = \frac{(b-a)^2}{12} D(X)=12(ba)2

指数分布

概率密度:
f ( x ) = { 1 θ e − x / θ ,       x > 0 0 ,                 x ≤ 0 f(x) = \begin{cases} \frac{1}{\theta}e^{-x/\theta}, \ \ \ \ \ x>0\\ 0, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x \leq 0 \end{cases} f(x)={θ1ex/θ,     x>00,               x0
其中 E ( X ) = θ E(X) = \theta E(X)=θ D ( X ) = θ 2 D(X) = \theta^2 D(X)=θ2

正态分布

密度函数:
f ( x ∣ μ , σ ) = 1 2 π σ 2 e x p ( ( π − μ ) 2 2 σ 2 ) f(x|\mu,\sigma) = \frac{1}{\sqrt{2\pi \sigma^2}}exp(\frac{(\pi-\mu)^2}{2\sigma^2}) f(xμ,σ)=2πσ2 1exp(2σ2(πμ)2)
其中 E ( X ) = μ E(X)=\mu E(X)=μ D ( X ) = σ 2 D(X) = \sigma^2 D(X)=σ2

参考文献

主要来自唐宇迪的人工智能数学基础课程,用于快速复习概率论,B站挺多视频的,就是不知道哪个是原版,有兴趣可以B站搜索一波

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锌a

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值