- 本文首发自公众号:RAIS,期待你的关注。
前言
本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。
概率论
机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。
概念
离散型
- 概率质量函数:是一个数值,概率, 0 ≤ P ( x ) ≤ 1 0\leq P(x)\leq 1 0≤P(x)≤1;
- 边缘概率分布: P ( X = x ) = ∑ y P ( X = x , Y = y ) P(X=x)=\sum_{y} P(X=x, Y=y) P(X=x)=∑yP(X=x,Y=y)
- 期望: E X = ∑ x P ( x ) f ( x ) EX=\sum_xP(x)f(x) EX=∑xP(x)f(x)
连续型
- 概率密度函数:是一个积分, F X ( x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=\int_{-\infty}^xf_X(t)dt FX(x)=∫−∞xfX(t)dt;
- 边缘概率分布: p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)dy p(x)=∫p(x,y)dy
- 期望: E X = ∫ P ( x ) f ( x ) d x EX=\int P(x)f(x)dx EX=∫P(x)f(x)dx
条件概率
P ( Y = y ∣ X = x ) = P ( Y = y , X = x ) P ( X = x ) P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)} P(Y=y∣X=x)=P(X=x)P(Y=y,X=x)
相互独立
P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P(X=x,Y=y)=P(X=x)P(Y=y) P(X=x,Y=y)=P(X=x)P(Y=y)
条件独立
P ( X = x , Y = y ∣ Z = z ) = P ( X = x ∣ Z = z ) P ( Y = y ∣ Z = z ) P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z) P(X=x,Y=y∣Z=z)=P(X=x∣Z=z)P(Y=y∣Z=z)
方差
D ( X ) = V a r ( X ) = E { [ X − E ( X ) ] 2 } D(X)=Var(X)=E\{[X-E(X)]^2\} D(X)=Var(X)=E{[X−E(X)]2}
标准差
σ ( X ) = D ( X ) \sigma(X)=\sqrt{D(X)} σ(X)=D(X)
协方差
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
相关系数
ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X)D(Y)Cov(X,Y)
常用分布
分布 | 分布律或概率密度 | 期望 | 方差 |
---|---|---|---|
(0-1)分布 | P { X = k } = p k ( 1 − p ) 1 − k , k = 0 , 1 P\{X=k\}=p^k(1-p)^{1-k},k=0,1 P{X=k}=pk(1−p)1−k,k=0,1 | p p p | p ( 1 − p ) p(1-p) p(1−p) |
二项分布 | P { X = k } = ( n k ) p k ( 1 − p ) n − k P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k} P{X=k}=(nk)pk(1−p)n−k | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
均匀分布 | f ( x ) = { 1 b − 1 , a < x < b 0 , 其 他 f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases} f(x)={b−11,a<x<b0,其他 | a + b 2 \frac{a+b}{2} 2a+b | ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(b−a)2 |
几何分布 | P { X = k } = ( 1 − p ) k − 1 p P\{X=k\}=(1-p)^{k-1}p P{X=k}=(1−p)k−1p | 1 p \frac{1}{p} p1 | 1 − p p 2 \frac{1-p}{p^2} p21−p |
泊松分布 | P { X = k } = λ k e − λ k ! P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!} P{X=k}=k!λke−λ | λ \lambda λ | λ \lambda λ |
指数分布 | f ( x ) = { 1 θ e − x θ , x > 0 0 , 其 他 f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases} f(x)={θ1e−θx,x>00,其他 | θ \theta θ | θ 2 \theta^2 θ2 |
正态分布 | f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2πσ1e−2σ2(x−μ)2 | μ \mu μ | σ 2 \sigma^2 σ2 |
这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。
以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。
范畴分布(Multinoulli 分布)
范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:
分布 | 英文名 | 试验次数 | 结果可能数 | 例子 |
---|---|---|---|---|
伯努利分布 | Bernoulli distribution | 1 | 2 | 扔一次硬币,正面向上概率 |
二项分布 | Binomial distribution | 多次 | 2 | 扔多次硬币,正面向上次数 |
范畴分布 | Multinoulli distribution | 1 | 多个 | 扔一次骰子,3点向上概率 |
多项式分布 | Multinmial distribution | 多次 | 多个 | 扔3次骰子,分别为1,2,3点 |
Laplace 分布
拉普拉斯分布。与指数分布可以对比着来看,看图:
Dirac delta 函数
狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。
经验分布
是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里
F n ( x ) = { 0 , x < x 1 k n , x k ≤ x < x k + 1 , k = 1 , 2 , . . . , n − 1 1 , x n ≤ x F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases} Fn(x)=⎩⎪⎨⎪⎧0,x<x1nk,xk≤x<xk+1,k=1,2,...,n−11,xn≤x
高斯混合模型
混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。
常用函数有用性质
logistic sigmoid 函数
σ ( x ) = 1 1 + e − x = e x e x + 1 \sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1} σ(x)=1+e−x1=ex+1ex
逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。
![截屏2020-03-27上午1 28 31](https://user-images.githubusercontent.com/7275046/77677279-6d891a00-6fca-11ea-9c30-255854699673.png)
softplus 函数
ζ ( x ) = l n ( 1 + e x ) \zeta(x)=ln(1+e^x) ζ(x)=ln(1+ex)
值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。
![截屏2020-03-27上午1 38 30](https://user-images.githubusercontent.com/7275046/77678127-ad043600-6fcb-11ea-9209-3b6e5cceb14e.png)
贝叶斯规则
P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(x|y)=\frac{P(x)P(y|x)}{P(y)} P(x∣y)=P(y)P(x)P(y∣x)
总结
如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。
- 本文首发自公众号:RAIS,期待你的关注。