分类目录:《算法设计与分析》总目录
概率分布用来描述随机变量或一簇随机变量在每个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量和概率质量函数
离散型变量的概率分布可以用概率质量函数来描述。我们通常用大写字母 P P P来表示概率质量函数。通常每一个随机变量都会有个不同的概率质量函数,并且我们必须根据随机变量来推断所使用的PMF,而不是根据函数的名称来推断;例如, P ( x ) P(x) P(x)通常和 P ( y ) P(y) P(y)不一样。
概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。 x = x i x=x_i x=xi的概率用 P ( x i ) P(x_i) P(xi)来表示,概率为1表示 x i x_i xi是确定的,概率为0表示 x = x i x=x_i x=xi是不可能发生的。有时我们会先定义一个随机变量,然后用 ∼ \sim ∼符号来说明它遵循的分布: x ∼ P ( x ) x\sim P(x) x∼P(x)。
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布。 P ( x = x i , y = y i ) P(x=x_i, y=y_i) P(x=xi,y=yi)表示 x = x i x=x_i x=xi和 y = y i y=y_i y=yi同时发生的概率。我们也可以简写为 P ( x i , y i ) P(x_i, y_i) P(xi,yi)。
如果一个函数 P P P是随机变量 x x x的PMF,必须满足下面这几个条件:
- P P P的定义域必须是 x x x所有可能状态的集合。
- ∀ x i ∈ x : 0 ≤ P ( x i ) ≤ 1 \forall x_i\in x:0\leq P(x_i)\leq 1 ∀xi∈x:0≤P(xi)≤1。不可能发生的事件概率为0,并且不存在比这概率更低的状态。类似的,能够确保一定发生的事件概率为1,而且不存在比这概率更高的状态。
- ∑ x i ∈ x P ( x i ) = 1 \sum_{x_i\in x}P(x_i)=1 ∑xi∈xP(xi)=1。我们把这条性质称之为归一化的。如果没有这条性质,当我们计算很多事件其中之一发生的概率时可能会得到大于1的概率。
例如,考虑一个离散型随机变量
x
x
x有
k
k
k个不同的状态。我们可以假设
x
x
x是均匀分布的(也就是将它的每个状态视为等可能的),通过将它的PMF设为
P
(
x
=
x
i
)
=
1
k
P(x=x_i)=\frac{1}{k}
P(x=xi)=k1
对于所有的
i
i
i都成立。我们可以看出这满足上述成为概率质量函数的条件。因为
k
k
k是一个正整数,所以是正的。我们也可以看出
∑
x
i
∈
x
P
(
x
=
x
i
)
=
∑
i
1
k
=
1
\sum_{x_i\in x}P(x=x_i)=\sum_i\frac{1}{k}=1
xi∈x∑P(x=xi)=i∑k1=1
因此分布也满足归一化条件。
连续型变量和概率密度函数
当我们研究的对象是连续型随机变量时,我们用概率密度函数而不是概率质量函数来描述它的概率分布。如果一个函数 p p p是概率密度函数,必须满足下面这几个条件:
- p p p的定义域必须是 x x x所有可能状态的集合。
- ∀ x i ∈ x : p ( x i ) ≥ 0 \forall x_i\in x:p(x_i)\geq0 ∀xi∈x:p(xi)≥0,注意,我们并不要求 : p ( x i ) ≤ 1 :p(x_i)\leq1 :p(xi)≤1。
- 概率密度函数 p ( x ) p(x) p(x)并没有直接对特定的状态给出概率,相对的,它给出了落在面积为 δ \delta δ的无限小的区域内的概率为 p ( x ) δ x p(x)\delta x p(x)δx。
我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地, x x x落在集合 S S S中的概率可以通过 p ( x ) p(x) p(x)对这个集合求积分来得到。在单变量的例子中, x x x落在区间 [ a , b ] [a,b] [a,b]的概率是 ∫ [ a , b ] p ( x ) d x \int_{[a,b]}p(x)dx ∫[a,b]p(x)dx。