从定义上分析
对连续性随机变量
X
,我们刻画它使用的是概率分布函数
- 从分布函数角度,对任意
△x>0
,有
0≤P(X=x)≤P(x−△x<X≤x)=F(x)−F(x−△x)由于连续型随机变量的分布函数是连续函数,因此不等式两边取极限,令 △x→0+ ,即得证。注意,这对离散型随机变量是不适用的,因为其分布函数为右连续。对于离散型随机变量,其单点概率自然是有意义的。 - 从概率密度函数角度,在一个点上积分没有意义,结果自然是0。
理解上
对于连续性随机变量,可取值范围是无限的,取一个固定值的概率相当于
1N
,而
N→∞
,结果为0。这就好比在实数集随机地抓取,希望抓出来的是你要的那个数,在概率意义上,我们说这件事发生的概率为0。
这里就有一个难理解的地方了,比如
X∈[0,1]
,
X
明明是可以取到1的,现在你告诉我
概率是数学世界里对事件发生可能性的一个统计意义上的定义,当面对无限取值空间时,单点概率无限小,我们认为其概率为0实际上是极限意义上的结果,这个过程是一种逼近而非真正等价。
而同时,对于真实世界里的概率事件,实际上并不存在一个真正意义上取值空间无限的连续型随机变量,比如受到我们的测量精度的制约,最后都相当于一个有限的离散型变量。像取单点这种概率世界里的零概率事件实际上相当于我们真实世界里的一个极小概率事件,而小概率事件是有可能发生的。只不过我们平时在处理问题的时候,把概率趋近于零的事件算作0概率事件,只是算作,不是绝对的是。
追根溯源,问题的本质在于用数学语言描述概率现象时,这个过程只是近似而非真正等价。
结论
- 对于连续型随机变量,讨论单点概率是没有意义的(结果为0),我们讨论的是随机变量落在一个区间的概率,且有
P{a≤X≤b}=P{a<X≤b}=P{a≤X<b}这也说明了我们为什么针对连续型随进变量引入了概率密度函数,概率密度的含义即随机变量在单位区间上的取值概率。(注意,概率密度值不同于概率值,是可以大于1的。在做贝叶斯分类器或是GMM时,我们用概率密度值代替了概率值,因此算出来的值大于1是非常有可能的。) - 连续性随机变量取固定值的概率为0,进一步,取有限个固定值的概率也为0。
- 零概率事件不一定是不可能事件。当然要具体问题具体分析,特别是面对连续型随机变量时,要分清楚我们是否把概率无限趋近于0的事件算作成了零概率事件。对于离散型随机变量,零概率事件必然是不可能事件。
- 同样的,概率为1的事件不一定是必然事件。比如
X∈[0,1]
,既然
X
取1的概率为0,那么
0≤X<1 的概率为1,但这一事件不一定必然发生,因为 X <script type="math/tex" id="MathJax-Element-49">X</script>还可能取到1。 - 而反过来,不可能事件的概率为0,必然事件的概率为1。
参考
[1] 施雨,李耀武 《概率论与数理统计应用》
[2] 零概率和不可能事件 http://wenku.baidu.com/view/470a49d7360cba1aa811da7b.html