机器学习常用的概率知识

在这里插入图片描述

以上图为例,实验进行的总次数为 N N N n i j n_{ij} nij 表示在 x i , y j x_i,y_j xi,yj 条件下的频数,有: c i = ∑ j n i j c_i=\sum_j n_{ij} ci=jnij r j = ∑ i n i j r_j=\sum_i n_{ij} rj=inij p ( X = x i ) = c i N \displaystyle p(X=x_i)=\frac{c_{i}}{N} p(X=xi)=Nci p ( Y = y j ) = r j N \displaystyle p(Y=y_j)=\frac{r_{j}}{N} p(Y=yj)=Nrj

联合概率: p ( X = x i , Y = y j ) = n i j N \displaystyle p(X=x_i,Y=y_j)=\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij

条件概率: p ( Y = y j ∣ X = x i ) = n i j c i \displaystyle p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i} p(Y=yjX=xi)=cinij

计算法则

概率求和法则: p ( X ) = ∑ Y p ( X , Y ) \displaystyle p(X)=\sum_Y p(X,Y) p(X)=Yp(X,Y)
概率求积法则: p ( X , Y ) = p ( Y ∣ X ) p ( X ) \displaystyle p(X,Y)=p(Y|X)p(X) p(X,Y)=p(YX)p(X)

贝叶斯理论:

p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) \displaystyle p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} p(YX)=p(X)p(XY)p(Y)

其中 P ( Y ∣ X ) P(Y|X) P(YX) 被称为后验概率, P ( X ∣ Y ) P(X|Y) P(XY) 被称为似然函数(类概率密度), P ( Y ) P(Y) P(Y) 被称为先验概率, p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) \displaystyle p(X)=\sum_Y p(X|Y)p(Y) p(X)=Yp(XY)p(Y)可被视为正则项因子(为一常数);

概率密度:

在这里插入图片描述

一变量 x x x 落入区间 ( x , x + δ x ) (x,x+\delta x) (x,x+δx) 的概率记为: p ( x ) ⋅ δ x p(x)\cdot\delta x p(x)δx,其中 δ x → 0 \delta x\to 0 δx0 p ( x ) p(x) p(x) 记为概率密度;则 x x x 落入区间 ( a , b ) (a,b) (a,b) 的概率为: P ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x \displaystyle P(x\in(a,b))=\int^b_ap(x)dx P(x(a,b))=abp(x)dx,且有 p ( x ) ≥ 0 ; ∫ − ∞ ∞ p ( x ) d x = 1 p(x)\ge0;\displaystyle \int^{\infty}_{-\infty}p(x)dx=1 p(x)0;p(x)dx=1

雅克比因子

在变量非线性变化的情况下,由于雅可比因子的存在,概率密度与简单函数的转换有所不同。例如,考虑一个变化的变量 x = g ( y ) x=g(y) x=g(y),则函数 f ( x ) f(x) f(x) 变为 f ~ ( y ) = f ( g ( y ) ) \tilde f(y)=f(g(y)) f~(y)=f(g(y)),现在考虑概率密度 p x ( x ) p_x(x) px(x) 及与之对应的新的变量 y y y 的概率密度 p y ( y ) p_y(y) py(y),他们是不同的。

对于足够小的 δ x \delta x δx,当变量落入区间 ( x , x + δ x ) (x,x+\delta x) (x,x+δx) 使,可被转换至 ( y , y + δ y ) (y,y+\delta y) (y,y+δy),其中 p x ( x ) ⋅ δ x ≈ p y ( y ) ⋅ δ y p_x(x)\cdot\delta x\approx p_y(y)\cdot\delta y px(x)δxpy(y)δy,因此,可以得到: p y ( y ) = p x ( x ) ⋅ ∣ d x d y ∣ = p x ( g ( y ) ) ⋅ ∣ g ′ ( y ) ∣ \displaystyle p_y(y)=p_x(x)\cdot|\frac{dx}{dy}|=p_x(g(y))\cdot|g'(y)| py(y)=px(x)dydx=px(g(y))g(y)

这一特性的结果就导致最大概率密度这一概念是依赖于变量的选择的。

期望和方差

期望

对连续函数,有期望 E [ f ] = ∫ p ( x ) f ( x ) d x \displaystyle\mathbb E[f]=\int p(x)f(x)dx E[f]=p(x)f(x)dx

而对于离散值,则有 E [ f ] = ∑ x p ( x ) f ( x ) \displaystyle\mathbb E[f]=\sum_x p(x)f(x) E[f]=xp(x)f(x)
而条件期望有: E x [ f ∣ y ] = ∑ x p ( x ∣ y ) f ( x ) \displaystyle\mathbb E_x[f|y]=\sum_x p(x|y)f(x) Ex[fy]=xp(xy)f(x)

方差

对变量 x x x 的方差,有 v a r [ x ] = E [ ( x − E [ x ] ) 2 ] = E [ x 2 ] − E 2 [ x ] var[x]=\mathbb E[(x-\mathbb E[x])^2]=\mathbb E[x^2]-\mathbb E^2[x] var[x]=E[(xE[x])2]=E[x2]E2[x]

而对函数 f ( x ) f(x) f(x),其方差则为: v a r [ x ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] = E [ f 2 ( x ) ] − E 2 [ f ( x ) ] var[x]=\mathbb E[(f(x)-\mathbb E[f(x)])^2]=\mathbb E[f^2(x)]-\mathbb E^2[f(x)] var[x]=E[(f(x)E[f(x)])2]=E[f2(x)]E2[f(x)]

对变量 x , y x,y x,y,他们的协方差是 c o v [ x , y ] = E x , y [ ( x − E [ x ] ) ( y − E [ y ] ) ] = E x , y [ x y ] − E [ x ] ⋅ E [ y ] cov[x,y]=\mathbb E_{x,y}[(x-\mathbb E[x])(y-\mathbb E[y])]=\mathbb E_{x,y}[xy]-\mathbb E[x]\cdot\mathbb E[y] cov[x,y]=Ex,y[(xE[x])(yE[y])]=Ex,y[xy]E[x]E[y]

若对于向量 x , y \mathbf x,\mathbf y x,y,他们的协方差则为一矩阵: c o v [ x , y ] = E x , y [ ( x − E [ x ] ) ( y T − E [ y T ] ) ] = E x , y [ x y T ] − E [ x ] ⋅ E [ y T ] cov[\mathbf x,\mathbf y]=\mathbb E_{\mathbf x,\mathbf y}[(\mathbf x-\mathbb E[\mathbf x])(\mathbf y^T-\mathbb E[\mathbf y^T])]=\mathbb E_{\mathbf x,\mathbf y}[\mathbf x\mathbf y^T]-\mathbb E[\mathbf x]\cdot\mathbb E[\mathbf y^T] cov[x,y]=Ex,y[(xE[x])(yTE[yT])]=Ex,y[xyT]E[x]E[yT]

典型分布

1.高斯分布

N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 ⋅ e x p { − 1 2 σ 2 ⋅ ( x − μ ) 2 } \displaystyle N(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\cdot exp\{-\frac{1}{2\sigma^2}\cdot(x-\mu)^2\} N(xμ,σ2)=(2πσ2)1/21exp{2σ21(xμ)2}

高斯分布的性质有:
(1) ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \displaystyle \int^{\infty}_{-\infty}N(x|\mu,\sigma^2)dx=1 N(xμ,σ2)dx=1

(2) E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ \displaystyle \mathbb E[x]=\int^{\infty}_{-\infty}N(x|\mu,\sigma^2)xdx=\mu E[x]=N(xμ,σ2)xdx=μ

(3) E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 \displaystyle \mathbb E[x^2]=\int^{\infty}_{-\infty}N(x|\mu,\sigma^2)x^2dx=\mu^2+\sigma^2 E[x2]=N(xμ,σ2)x2dx=μ2+σ2

(4) v a r [ x ] = E [ x 2 ] − E 2 [ x ] = σ 2 var[x]=\mathbb E[x^2]-\mathbb E^2[x]=\sigma^2 var[x]=E[x2]E2[x]=σ2

2.多维高斯分布

N ( x ∣ u , Σ ) = 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 ⋅ e x p { − 1 2 ( x − u ) T Σ − 1 ( x − u ) } \displaystyle N(\mathbf x|\mathbf u,\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\cdot exp\{-\frac{1}{2}(\mathbf x-\mathbf u)^T\Sigma^{-1}(\mathbf x-\mathbf u)\} N(xu,Σ)=(2π)D/21Σ1/21exp{21(xu)TΣ1(xu)}

上式为一 D D D 维正态分布, u \mathbf u u 是均值向量, Σ \Sigma Σ D × D D\times D D×D 维的协方差矩阵。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值