深度学习中的概率论

  • 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型
  • 概率质量函数:是一个数值,概率, 0 ≤ P ( x ) ≤ 1 0\leq P(x)\leq 1 0P(x)1
  • 边缘概率分布: P ( X = x ) = ∑ y P ( X = x , Y = y ) P(X=x)=\sum_{y} P(X=x, Y=y) P(X=x)=yP(X=x,Y=y)
  • 期望: E X = ∑ x P ( x ) f ( x ) EX=\sum_xP(x)f(x) EX=xP(x)f(x)
连续型
  • 概率密度函数:是一个积分, F X ( x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=\int_{-\infty}^xf_X(t)dt FX(x)=xfX(t)dt
  • 边缘概率分布: p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)dy p(x)=p(x,y)dy
  • 期望: E X = ∫ P ( x ) f ( x ) d x EX=\int P(x)f(x)dx EX=P(x)f(x)dx
条件概率

P ( Y = y ∣ X = x ) = P ( Y = y , X = x ) P ( X = x ) P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)} P(Y=yX=x)=P(X=x)P(Y=y,X=x)

相互独立

P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P(X=x,Y=y)=P(X=x)P(Y=y) P(X=x,Y=y)=P(X=x)P(Y=y)

条件独立

P ( X = x , Y = y ∣ Z = z ) = P ( X = x ∣ Z = z ) P ( Y = y ∣ Z = z ) P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z) P(X=x,Y=yZ=z)=P(X=xZ=z)P(Y=yZ=z)

方差

D ( X ) = V a r ( X ) = E { [ X − E ( X ) ] 2 } D(X)=Var(X)=E\{[X-E(X)]^2\} D(X)=Var(X)=E{[XE(X)]2}

标准差

σ ( X ) = D ( X ) \sigma(X)=\sqrt{D(X)} σ(X)=D(X)

协方差

C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[XE(X)][YE(Y)]}

相关系数

ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X) D(Y) Cov(X,Y)

常用分布

分布分布律或概率密度期望方差
(0-1)分布 P { X = k } = p k ( 1 − p ) 1 − k , k = 0 , 1 P\{X=k\}=p^k(1-p)^{1-k},k=0,1 P{X=k}=pk(1p)1k,k=0,1 p p p p ( 1 − p ) p(1-p) p(1p)
二项分布 P { X = k } = ( n k ) p k ( 1 − p ) n − k P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k} P{X=k}=(nk)pk(1p)nk n p np np n p ( 1 − p ) np(1-p) np(1p)
均匀分布 f ( x ) = { 1 b − 1 ,       a < x < b 0 ,             其 他 f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases} f(x)={b11,a<x<b0, a + b 2 \frac{a+b}{2} 2a+b ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(ba)2
几何分布 P { X = k } = ( 1 − p ) k − 1 p P\{X=k\}=(1-p)^{k-1}p P{X=k}=(1p)k1p 1 p \frac{1}{p} p1 1 − p p 2 \frac{1-p}{p^2} p21p
泊松分布 P { X = k } = λ k e − λ k ! P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!} P{X=k}=k!λkeλ λ \lambda λ λ \lambda λ
指数分布 f ( x ) = { 1 θ e − x θ ,    x > 0 0 ,              其 他 f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases} f(x)={θ1eθx,x>00, θ \theta θ θ 2 \theta^2 θ2
正态分布 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2 μ \mu μ σ 2 \sigma^2 σ2

这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

分布英文名试验次数结果可能数例子
伯努利分布Bernoulli distribution12扔一次硬币,正面向上概率
二项分布Binomial distribution多次2扔多次硬币,正面向上次数
范畴分布Multinoulli distribution1多个扔一次骰子,3点向上概率
多项式分布Multinmial distribution多次多个扔3次骰子,分别为1,2,3点
Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

指数分布与拉普拉斯分布

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

Dirac

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里

F n ( x ) = { 0 ,        x < x 1 k n ,        x k ≤ x < x k + 1 , k = 1 , 2 , . . . , n − 1 1 ,        x n ≤ x F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases} Fn(x)=0,x<x1nk,xkx<xk+1,k=1,2,...,n11,xnx

Empirical_CDF

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数有用性质

logistic sigmoid 函数

σ ( x ) = 1 1 + e − x = e x e x + 1 \sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1} σ(x)=1+ex1=ex+1ex

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。

截屏2020-03-27上午1 28 31
softplus 函数

ζ ( x ) = l n ( 1 + e x ) \zeta(x)=ln(1+e^x) ζ(x)=ln(1+ex)

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。

截屏2020-03-27上午1 38 30

贝叶斯规则

P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(x|y)=\frac{P(x)P(y|x)}{P(y)} P(xy)=P(y)P(x)P(yx)

总结

如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值