点击上方「蓝字」关注我们

03 概率:对世界可能性的度量
上一节课介绍了随机的概念,搞清楚随机的概念,这节课就该进入正题——概率了。
概率论是一个古老,但也很年轻的学科。虽然早在1654年,帕斯卡和费马就在通信中开始讨论概率问题了,但直到1933年俄罗斯数学家柯尔莫果洛夫对概率进行公理化定义之后,概率论才得到了数学家们的广泛认可,成为数学大家庭中的一员。
为什么公理化如此重要?为了解释这个问题,我们有必要在上一节随机试验定义的基础上,再给出样本空间和随机事件的概念。
随机试验E的所有可能结果组成的集合,称为E的样本空间,记为S.
样本空间的元素,即E的每个可能结果,称为样本点。
试验E的样本空间S的子集,称为随机事件。
以我们熟悉的掷骰子为例,在骰子是均匀的条件下,观察掷出骰子的点数,这是随机事件。所有可能点数的集合——{1,2,3,4,5,6},就是样本空间。而“掷出的点数大于3”对应于样本空间的一个子集{4,5,6},则是随机事件。
这里多说一点,将用人类语言描述的“随机事件”——掷出的点数大于3,翻译成数学语言{4,5,6},是学习概率论的必备技能。这也是在导论部分我们说概率要学好,先要把语文学好的原因。
这里有一个重要的前提条件,就是骰子是均匀的,在这个条件下,每一个点数出现的概率是相等的,这就是所谓的等可能概型。
既然每一个点数出现的概率是相等的,那么这个概率就应该等于1/6,或者说,等于1/n,这里的n是样本空间包含的样本点的总个数。
这样,我们就得到了等可能概率的一个计算方法。假设一个随机事件包含了m个样本点, 每个点出现的概率又是相等的,很显然这个随机事件发生的概率就是m/n——随机事件包含样本点的个数与样本空间包含样本点的个数的比值。

下面我们再看看另一个例子。向一个圆形的靶子进行射击,假设击中靶子的任一点的概率是相等的,这也是等可能概型。那么,问射中靶心10环部分的概率是多少?
这个问题如果套用刚才的计算方法就不灵了。整个靶子包含多少样本点?有无穷多个。靶心10环部分包含多少样本点?也有无穷多个。无穷除以无穷?很显然这是没有道理的。
然而,无穷和无穷其实是不一样的。就我们朴素的理解,整个靶子包含的样本点,显然要比靶心10环部分包含的样本点更多(在数学家看来,这两部分包含的点其实是一样多的)。因此,打中靶心10环部分的概率,应该用靶心10环部分的面积,除以整个靶子的面积。
实际上,掷骰子这个例子中,样本点的个数是有限个,因此我们称之为古典概型。在打靶这个例子中,样本点的个数有无穷多个,而概率是和样本空间和随机事件对应图形的面积(或长度、体积等度量)有关,因此称之为几何概型。
不管是古典概型,还是几何概型,都属于等可能概型。但问题是,生活中有大量的概率问题并不是等可能概型。比如,考虑明天下雨的概率,明天的天气无非就是晴天、阴天、下雨等几种,但是每种天气状况出现的概率显然就不是等可能的,这就不是等可能概型,也就不能用刚才的算法。再比如,刚刚打靶的例子,实际生活中,打中靶子每一个点的概率其实并不是相等的。对于高手来说,打中靶心部分的概率,显然比菜鸟要高很多。因此,这也不是等可能概型,计算打中靶心10环部分的概率也就不能用面积的比值这种方法了。
在这一讲中,刘嘉老师给出了一个方便大家理解的概率的定义——概率是随机事件发生可能性大小的定量描述。而这个定量描述到底是如何描述呢?简单来说,就是随机事件占样本空间的比率。
这实际上就是刚才古典概型掷骰子和几何概型打靶这两个例子结论的归纳和总结。随机事件占样本空间的比率,这个定义将古典概型的有限样本点和几何概型的无穷多样本点作了一个统一。但问题是,无穷多样本点的模型并不等于几何概型,也就是说有很多无穷多样本点的模型,它并不是几何概型。
可见,概率的算法依赖于模型,不同的概率模型,有着不同的算法,而模型则千差万别不一而足。如果简单地用概率的计算方法作为概率的定义,那么概率就很难有一个精确的,放之四海皆准,且能够反映概率本质的定义了。
如果一门数学理论连最基本的概念都缺乏一个准确严谨的定义,又怎能成为一个正式的数学门类,得到科学共同体的承认呢?于是概率的公理化定义势在必行!
我们首先看下概率的公理化定义是如何陈述的:
设E是随机试验,其样本空间为S. 对于E的每一 事件A,赋于一个实数,记为P(A),称为事件A的概率,如果集合函数P(•)满足下列条件:
非负性: 对于每一个事件A,有 P(A)≧0 ;
完备性: 对于必然事件S(必然事件指整个样本空间构成的时间), 有 P(S)=1;
可列可加性:设A₁, A₂,...是两两互不相容的事件(即,这些事件两两不可能同时发生),则A₁,A₂,...至少有一个发生(即,A₁发生或A₂发生或...)的概率等于A₁发生的概率+A₂发生的概率+...用数学公式表示就是:
P(A₁∪A₂∪...)=P(A₁)+P(A₂)+...
用通俗易懂的语言来解释就是
概率是非负的;
概率不会超过1;
互不相容的事件,其概率可以直接相加。
这三条性质是对任一个概率模型都成立的。前两条性质容易理解,这里的第三条可列可加性实际上我们刚刚的分析中已经用到了。假设一个随机事件包含了样本空间中的m个点, 每个点出现的概率又是相等的,很显然这个随机事件发生的概率就是m/n. 我们可以把每一样本点发生的概率相加,得到随机事件的概率,就是因为每一个样本点实际上是互不相容的。

sdfd
大家看出来没有,所谓公理化定义,其实是摆脱了具体模型对概率定义的束缚,将概率的基本性质剥离出来,利用性质对其定义。首先定义概率是一个映射, 从随机事件到实数的映射。只要这个映射满足上述三条性质,它就是一个概率,至于这个映射的具体表达式,具体算法,我们就不关心了。
这样,一个放之四海皆准的概率定义就出来了。这个定义不仅适用于任何一种概率模型,而且基于这个定义,还可以推导出很多概率的重要性质和计算公式。比方之后的加法公式和乘法公式,背后都有概率公理化定义作为支撑。
当然你也会有疑问,之前举例中的,明天下雨的概率,实际问题中运动员击中靶心10环部分的概率,到底该怎么算呢?这就涉及到概率的计算问题了,这又是另一个问题了。
把定义和计算分开,这是数学中一个常见的做法。定义是为了帮助我们了解这个概念的本质和存在的意义,而具体去计算的时候,我们往往都有专门的方法。
比方,高等数学中大家熟悉的导数、积分的定义和具体的计算,差别是很大的。导数的定义是差商的极限,积分的定义则是“分割、求和、近似、取极限”这四步。到了实际计算的时候,基本上我们很少使用定义去计算,因为太繁琐了,我们通常都有更简便的计算方法和技巧。
从概率定义的演变,我们可以看出数学概念和数学理论的一些共性。

自由选择,积极行动。
老胡陪你日日精进!

点个“在看”表示朕
已阅