机器学习必备概率基础知识

最新推荐文章于 2022-09-28 14:50:20 发布

RYP_S

最新推荐文章于 2022-09-28 14:50:20 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习概率数学

本文链接：https://blog.csdn.net/renyp8799/article/details/48471227

版权

机器学习专栏收录该内容

68 篇文章 1 订阅

订阅专栏

概率分布

期望

如果 ∫ ∞ −∞ |x|f(x)dx<∞ ，那么 E(x)=∫ ∞ −∞ xf(x)dx ；如果积分发散，则期望不存在（无意义）。

函数的期望 如果 Y=g(X) ，对于离散变量 E(Y)=∑ x g(x)p(x) ，对于连续变量 E(Y)=∫ ∞ −∞ g(x)f(x)dx 。注意函数的期望不一定等于期望的函数，即 E[g(x)]≠g[E(x)] 。如果X和Y是相互独立的随机变量，g和h是固定的函数，那么

E [g (X) h (Y)] = E [g (X)] E [h (Y)], i f g (X) 和 h (Y) 的 期 望 存 在 (1)

作为公式

(1) 的特例，

E(XY)=E(X)E(Y) 。

方差是一种特殊的期望

V a r (X) = E [X - E (X)] 2 = E (X 2) - [E (X)] 2 (2)

伯努利分布

伯努利随机变量的取值只有两个：0和1。

p (1) = p (3)

二项分布

令 x 1 ,x 2 ,...,x n 是相互独立的伯努得随机变量，那么

y = x 1 + x 2 + . . . + x n (4)

是一个二项随机变量。

p (y = k) = (n k) p k (1 - p) n - k (5)

其中

p 就是公式

(3) 中的

p ，所以公式

(3) 表示一次试验成功的概率，而公式

(5) 表示k次试验成功的概率。

多项分布

二项分布每次实验结果只有2种，如果有多种那就变成了多项分布。设一共有r种结果，每种结果出现的概率依次是 p 1 ,p 2 ,...p r ，进行发n次实验，第i种结果出现的次数为 n i ，这样的概率是

p (n 1, n 2, \dots n r) = n ! n 1 ! n 2 ! \dots n r ! p n 1 1 p n 2 2 \dots p n r r (6)

n个对象分成r个类别，第i类有

n i 个对象，这种分类方式共有

n ! n 1 ! n 2 ! \dots n r ! (7)

种，这个式子正是多项系数

(X 1 + X 2 + \dots + X r) n = \sum (n ! n 1 ! n 2 ! \dots n r !) X n 1 1 X n 2 2 \dots X n r r (8)

几何分布

连续若干次相互独立的伯努利试验，第g次才成功。则

p (g = k) = (1 - p) k - 1 p (9)

期望是

负二项分布

负二项分布是几何分布的一般化。连续若干次相互独立的伯努利试验，直到成功了r次为止，共进行了k次试验。

p (n = k) = (k - 1 r - 1) p r - 1 (1 - p) k - r p (10)

负二项分布也可以看成是r次独立的几何随机变量的和：第1次成功时经历的试验次数

g 1 加上第1次成功后第2次成功又经历的试验次数

g 2 加上……所以

n = g 1 + g 2 + . . . + g r (11)

超几何分布

共有n个球，其中黑球r个，白球n-r个。从中取出m个球，X表示抽到黑球的个数。

p (X = k) = ( r k ) ( n - r m - k ) ( n m ) (12)

在估计野生动物数量时经常采用标记重捕法：捕获r只动物，将它们作上标记后释放。这之后再捕获m个动物，发现其中有k个带有标记，请估计动物的总数n。这里我们采用极大似然估计法，它将使观测结果出现可能性最大的n作为其估计值。根据超几何分布我们知道出现观测结果的概率为

L n = ( r k ) ( n - r m - k ) ( n m )

"显然易见”，该似然函数随着n的增长先单调上长再单调下降，为求得似然函数的极大值点很容易想到的是令一阶导数为0。然而一阶导数并不好求，我们转把似然函数转换成对数函数后再来求一阶导数，不幸的是这种方法仍然不便于计算。我们考虑似然函数的连续项比值

L n L n - 1 = ( n - m ) ( n - r ) n ( n + k - m - r )

该比值项为1时似然函数取得最大值，得

n = r m k

自然常数e

下面的几种概率密度函数中都包含e，所以我们先来剖析一下e到底是什么。

自然常数e和圆周率 π 是常见的超越数。

来看几个跟e有关的公式。

e = lim x \to \infty (1 + 1 x) x (13)

e = \sum x = 0 \infty 1 x ! (14)

(a x)' = a x l n a (15)

(l o g a x)' = l o g a e x (16)

利用公式 (13) 我们来具体说下e到底是什么。假设一个细胞经过1个单位时间分裂成两个细胞。即经过1个单位时间后细胞数目比原先多了1倍，经过1/2个单位时间后细胞数目比原先多了1/2倍，经过1/3个单位时间后细胞数目比原先多了1/3倍，经过1/n个单位时间后细胞数目比原先多了1/n倍。则我们用下面的公式计算单位时间后的细胞数目是当前的几倍：

(1+11 ) 1

现在假设一个细胞还是需要1个单位时间才能分裂成两个细胞，只是经过1/2单位时间后，正在分裂中的细胞又开始新的分裂过程。1个单位时间可以分成前后两个阶段，每个阶段末的细胞数目都是阶段初的 1+12 倍。我们用下面的公式计算单位时间后的细胞数目是当前的几倍：

(1+12 ) 2

如果经过1/n个单位时间后细胞就具有分裂能力，则我们用下面的公式计算单位时间后的细胞数目是当前的几倍：

(1 + 1 n) n (17)

当细胞具有分裂能力的时间间隔足够短，即 n→∞ 时，公式 (17) 就等于e。由此得出：e是单位时间内持续的翻番增长所能达到的极限值。

泊松分布

当满足以下前提条件时，泊松变量表示单位时间内发生的次数。

不同子区间内了生与否相互独立
每个子区间发生的概率相同
事件不会同时发生

P (X = k) = λ k k ! e - λ, k = 0, 1, 2...... (18)

注意到

e λ = \sum k = 0 \infty λ k k ! (19)

泊松分布的期望和方差都是 λ 。

泊松过程： S 1 ,S 2 ,...S N 是S的互不相交的子集，这些子集上发生的事件数 N 1 ,N 2 ,...N 3 是相互独立的随机变量，且服从参数为 λ|S 1 |,λ|S 2 |...λ|S N | 的泊松分布，即期望与区间大小成正比例。

如果X服从参数为 λ 的泊松分布，Y服从参数为 μ 的泊松分布，且X和Y相互独立，那么X+Y服从参数为 λ+μ 的泊松分布。

Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。

指数分布

指数分布常用来描述生命周期或等待时间，变量一般用t表示。

密度函数 f(t)={λe −λt ,0, ift≥0ift<0

λ 越大，密度函数下降得越快。

密度积累函数 F(t)=P(T<t)=1−e −λt ，即

P (T > t) = e - λ t (20)

一般地，泊松过程两次事件发生的时间间隔是独立同分布的指数随机变量。这里我们可以简单推导一下，令泊松过程两次事件发生的时间间隔是T，

P(T>t)=P((t 0 ,t 0 +t)内没有事件发生) ，因为在长度为

(t 0 ,t 0 +t) 的时长内事件发生的个数服从参数为

λt 的泊松分布，由公式

(18) 发生次数为0的概率是

e −λt ，即

P(T>t)=e −λt ，这和公式

(20) 是吻合的。

指数分布的期望是 1λ 。

正态分布

密度函数

f (x) = 1 2 π - - \sqrt σ e - ( x - μ ) 2 2 σ 2 (21)

独立正态随机变量的和还是正态随机变量。

这里给出一种生成正态随机变量的方法。首先独立生成[0,1]上的均匀随机变量 U 1 和 U 2 ，则 X=−2logU 1 − − − − − − − √ cos(2πU 2 )和Y=−2logU 1 − − − − − − − √ sin(2πU 2 ) 是相互独立的标准正态随机变量，这种方法叫做极化方法(polar method)。