概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性的大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量和概率质量函数
离散型变量的概率分布可以用概率质量函数(probability mass function,PMF)来描述。我们通常用大写字母
P
来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数,并且读者必须根据随机变量来推断所使用的PMF,而不是根据函数的名称来推断;例如,
概率质量函数将随机变量能够取得的每一个状态映射到随机变量取得该状态的概率。
x=x
的概率用
P(x)
来表示,概率为1表示
x=x
是确定的,概率为0表示
x=x
是不可能发生的。有时为了使得PMF的使用不相互混淆,我们会明确写出随机变量的名称:
P(x=x)
。有时我们会先定义一个随机变量,然后用
∼
符号来说明它遵循的分布:
x∼P(x)
。
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。
P(x=x,y=y)
表示
x=x
和
y=y
同时发生的概率。我们也可以简写为
P(x,y)
。
如果一个函数
P
是随机变量
-
P
的定义域必须是
x 所有可能状态的集合。 - ∀x∈x,0≤P(x)≤1 .不可能发生的事件概率为0,并且不存在比这概率更低的状态。类似的,能够确保一定发生的事件概率为1,而且不存在比这概率更高的状态。
- ∑x∈xP(x)=1 .我们把这条性质称之为归一化(normalized)。如果没有这条性质,当我们计算很多事件其中之一发生的概率时可能会得到大于1的概率。
例如,考虑一个离散型随机变量
x
有
k
个不同的状态。我们可以假设
对于所有的 i 都成立。我们可以看出这满足上述称为概率质量函数的条件。因为
因此分布也满足归一化条件。
连续型变量和概率密度函数
当我们研究的对象是连续型随机变量时,我们用概率密度函数(probability density function,PDF)而不是概率质量函数来描述它的概率分布。如果一个函数 p 是概率密度函数,必须满足下面这几个条件:
p 的定义域必须是 x 所有可能状态的集合。∀x∈x,p(x)≥0 .注意,我们并不要求 p(x)≤1- ∫p(x)dx=1
概率密度函数 p(x) 并没有直接对特定的状态给出概率,相对的,它给出了落在面积为 δx 的无限小的区域内的概率为 p(x)δx 。
我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地, x 落在集合S 中的概率可以通过 p(x) 对这个集合求积分来得到。在单变量的例子中, x 落在区间[a,b] 的概率是 ∫[a,b]p(x)dx 。
为了给出一个连续型随机变量的PDF的例子,我们可以考虑实数区间上的均匀分布。我们可以使用函数 u(x;a,b) ,其中 a 和b 是区间的端点且满足 b>a 。符号“;”表示“以什么为参数”;我们把 x 作为函数的自变量,a 和 b 作为定义函数的参数。为了确保区间外没有概率,我们对所有的x∉[a,b] ,令 u(x;a,b)=0 。在[a,b]内,有 u(x;a,b)=\fac1b−a 。我们可以看出任何一点都非负。另外,它的积分为1。我们通常用 x∼U(a,b) 表示 x 在[a,b] 上是均匀分布的。