分类目录:《机器学习中的数学》总目录
连续型随机变量和概率密度函数的深人理解需要用到数学分支测度论的相关内容来扩展概率论。在《概率分布》中,我们已经看到连续型向量值随机变量 x x x落在某个集合 S S S中的概率是通过 p ( x ) p(x) p(x)对集合 S S S积分得到的。对于集合 S S S的一些选择可能会引起悖论。例如,构造两个集合 S 1 S_1 S1和 S 2 S_2 S2使得 p ( x ∈ S 1 ) + p ( x ∈ S 2 ) > 1 p(x\in S_1)+p(x\in S_2)>1 p(x∈S1)+p(x∈S2)>1并且 S 1 ∩ S 2 = 0 S_1 \cap S_2=0 S1∩S2=0是可能的。这些集合通常是大量使用了实数的无限精度来构造的,例如通过构造分形形状的集合或者是通过有理数相关集合的变换定义的集合。测度论的个重要贡献就是提供了一些集合的特征使得我们在计算概率时不会遇到悖论。
对于我们的目的,测度论更多的是用来描述那些适用于 R n R^n Rn上的大多数点,却不适用于一些边界情况的定理。测度论提供了一种严格的方式来描述那些非常微小的点集。这种集合被称为“零测度”的。直观地理解这个概念是有用的,我们可以认为零测度集在我们的度量空间中不占有任何的体积。例如,在 R 2 R^2 R2空间中,一条直线的测度为零,而填充的多边形具有正的测度。类似的,一个单独的点的测度为零。可数多个零测度集的并仍然是零测度的(所以所有有理数构成的集合测度为零)。
另外一个有用的测度论中的术语是“几乎处处”某个性质如果是几乎处处都成立的,那么它在整个空间中除了一个测度为零的集合以外都是成立的。因为这些例外只在空间中占有极其微小的量,它们在多数应用中都可以被放心地忽略。概率论中的一些重要结果对于离散值成立但对于连续值只能是“几乎处处”成立。