【概率论】1-1:概率定义(Definition of Probability)

原文地址1:https://www.face2ai.com/Math-Probability-1-1-Definition-of-Probability转载请标明出处

Abstract: 本文介绍样本空间,公理化的概率的定义,以及概率的性质
Keywords: Sample Space,Finite Sample Space,Kolmogorov axioms(Probability Axioms),Definition of Probability,Properties of Probability,Bonferroni Inequality

概率定义

开篇提示:基本定理的证明都要用到集合论的知识,所以前面的集合论博客一定要先看哦!

做基础难的另一个原因是看不到结果,研究算法也好做应用也好,起码能写个程序观察下结果,虽然不知道为啥有结果但是能看着点东西总觉得自己在进步,但是天天做数学题真是看不出啥进展,没有感官上的刺激容易让人失去动力。

样本空间 Sample Space

继续上文中的讨论,我们在上一篇文章中说到了试验的outcome,并且对其进行约定必须是完全已知的,并把它当做集合来看,于是我们引入一个新的名词来命名这个包含所有结果的集合–样本空间(Sample Space)

Definition: The collection of all possible outcomes of an experiment is called the sample space of experiment

有一个神奇的事情就是陈希孺老师的《概率论与数理统计》中并没有在概率论部分提出样本空间这个概念,而是在数理统计部分提出的样本的概念,不知道老师为何如此安排,但别的入门书籍都是在前面就给出样本空间的定义,所以我们可以先接受这个概念。
举个🌰 :
掷一个六面的骰子,可以预期的结果无非就是123456点。
{ 1 , 2 , 3 , 4 , 5 , 6 } \{1,2,3,4,5,6\} {1,2,3,4,5,6}
那么这个描述中,试验就是“掷一个六面的骰子”,试验可能的outcome的集合就是上面的集合,所以我们说这个试验的样本空间就是上面描述的集合。

样本点 Point

试验的每一个outcome可以成为一个样本点(Point或者Element),所以事件event还可以看成是样本点的集合(之前一篇说的是样本空间的子集),这里概念是一致的,全部的样本点组成了样本空间,部分样本点组成了事件,和容易判定的一个关系。

有限样本空间 Finite Sample Space

有限的样本空间,首先我们应该去看一下集合论的博客,在那里面我们介绍了集合部分的内容,而且在后面我会把《陶哲轩实分析》中集合的提出和证明加入进去,里面有有关有限集合和无限集合的讨论。

试验可能出现无限结果的可能,比如某位置x测温度的试验,其可以描述成一个函数,
T = f ( x ) T=f(x) T=f(x)
这明显是一个把位置映射到实数的函数,那么结果T就是个连续(实际上不可能连续,因为测试工具不可能精确到趋近于0,这句话如果不太理解没关系,这涉及到分析学中的实数连续性的东西),说白话,理想情况下(温度计没误差,可以精确到无限位)就是试验结果有无穷多,那么这个结果集合是无限的。

当我们把样本空间看做集合,首先我们肯定不研究上面这个连续的例子,这个太复杂了,我们还是来点简单的,自然从无限多个结果的试验转换到有限个实验结果的实验上,比如扔骰子。
只要是扔有限个正常骰子,其结果都是有限的,比如扔一个,其结果是:
{ 1 , 2 , 3 , 4 , 5 , 6 } \{1,2,3,4,5,6\} {1,2,3,4,5,6}
扔两个:
X 1 = { 1 , 2 , 3 , 4 , 5 , 6 } X 2 = { 1 , 2 , 3 , 4 , 5 , 6 } t h e n : Y 2 = { ( x 1 , x 2 ) ∣ x 1 ∈ X 1 , x 2 ∈ X 2 } o r Y 2 = X 1 × X 2 X_1=\{1,2,3,4,5,6\}\\ X_2=\{1,2,3,4,5,6\}\\ then:\\ Y_2=\{(x_1,x_2)|x_1\in X_1 ,x_2 \in X_2\} or\\ Y_2=X_1\times X_2 X1={1,2,3,4,5,6}X2={1,2,3,4,5,6}then:Y2={(x1,x2)x1X1,x2X2}orY2=X1×X2
最后这个表达式 X 1 × X 2 X_1\times X_2 X1×X2 表示为笛卡尔积,有限集合的笛卡尔积是有限的,所以,扔有限个骰子的结果是完全确定的,也就是这类试验是Finite Sample Space的。

概率是什么 What is the Probability ?

概率在上一篇中我们更多的用可能性来替代,事件(event)有可能性,那么我们进一步,每个事件具有概率。
下面我们通过Kolmogorov Axiom 柯氏公理来定义概率,需要解释的是,公理不同于定理,公理是不证自明的,也就是说公理不需要证明,他可以明确的告诉你,我就是对的,公理也是近代数学的基础,数学分析主要研究这套理论,(广告:后面会写数学分析相关的博客)。

柯氏公理 1 Kolmogorov Axiom 1

对于任意事件A:
P r ( A ) ≥ 0 Pr(A) \geq 0 Pr(A)0
公理1:任何事件的概率都是非负的

柯氏公理 2 Kolmogorov Axiom 2

公理2,如果对于某实验X的事件S,必然发生,我们说S的概率:
P r ( S ) = 1 Pr(S)=1 Pr(S)=1
必然要发生的事件的概率是1
比如试验:我们有3个红色的球,我们随意选一个出来,选出是红球的概率,那么事件“选出红球”必然发生,那么他的概率就是1.

不相交事件 Disjointed Events

已经两条公理了,再有一条就大功告成了,但是在这之前必须插播一条关于不相交事件的说明,我们前面反复说事件就是样本点的集合,那么就涉及到集合相交的问题,如果两个事件包含多于一个相同的样本点,那么他们相交,否则不相交。

如果两个不相交的事件A,B对应的概率是 P r ( A ) Pr(A) Pr(A) P r ( B ) Pr(B) Pr(B),那么 { A 发 生 o r B 发 生 } \{A发生 or B发生\} {AorB} 这个事件C的概率,我们可以很自然的认为是A的概率加上B的概率,即 P r ( C ) = P r ( A ) + P r ( B ) Pr(C)=Pr(A)+Pr(B) Pr(C)=Pr(A)+Pr(B)

上面这条假设可谓是基石一样存在,进一步扩展就是变成多个不向交的事件,无限多个不相交的事件,同样假设成立。
于是根据这个假设,可以提出第三个公理

柯氏公理 3 Kolmogorov Axiom 3

对于无限不向交事件序列 A 1 , A 2 , A 3 , … A_1,A_2,A_3,\dots A1,A2,A3, 那么:
P r ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P r ( A i ) Pr(\bigcup^\infty_{i=1}A_i)=\sum^\infty_{i=1}Pr(A_i) Pr(i=1Ai)=i=1Pr(Ai)

公理3相对复杂一点点,我们来举个🌰说明下,概率论的逻辑性没有数分和线性代数那么强,但是例子性非常强,多举例子才能更容易理解:
扔骰子的例子,我们扔一个均匀的标准的,六面体骰子,我们定义事件A是得到点{1,2},定义事件B是得到点{3,4},定义事件C是得到点数{5},定义事件D是得到{6},可见这四个事件是完全不向交的,于是那么我们可以定义一个并集,事件 S = A ∪ B ∪ C S=A\cup B \cup C S=ABC 那么我们可以计算出 P r ( S ) = P r ( A ) + P r ( B ) + P r ( C ) Pr(S)=Pr(A)+Pr(B)+Pr(C) Pr(S)=Pr(A)+Pr(B)+Pr(C)

概率的定义 Definition of Probability

Definition: A probability measure ,or simply a probability,on a sample space S is a specification numbers Pr(A) for event A that satisfy of Axioms 1,2 and 3
定义,概率描述,或者概率,在一个样本空间S上,对于事件A,是一个特别的数字Pr(A),其满足三条公理。
这句话有点拗口,但是我们可以利用中文来分析下句子成分,主语"概率描述或者概率",谓语“是”,宾语“数字”,宾语的定语“对于事件A”,“满足三条公理”,状语“在样本空间上”,那么这个套路就很清晰了:

时间:不详
地点:样本空间上
人物:概率
事件:对于某个事件进行可能性评估
经过:如果满足三条公理
结果:可以得到完备的概率定义

概率的性质 Properties of Probability

根据三条公理可以引申出不少性质,有点像线性代数中行列式的提出,概率的提出也是通过先定义性质,再引出实体(公理也是性质),然后再得出其他性质,下面我们介绍一些列Theorem:

T1: P r ( ∅ ) = 0 Pr(\emptyset) = 0 Pr()=0

直观的来看这条定理,空集对应的事件N中包含0个样本点,所以不会发生这样的事件,所以可能性是不可能,是0,但是我们要用公理来证明定理,这样才能体现数学的公理化,这个定理的证明比较简单,可以用两种方法证明,第二种是DeGroot给出的证明,第一种是Tony的证法:

方法1(此方法有错误!你能找到哪里出了问题么?):

①设事件A对应空集合,根据公理1,设其概率是
A = ∅ P r ( A ) ≥ 0 A=\emptyset\\ Pr(A)\geq0 A=Pr(A)0

②我们再设一个事件S,其包含全部样本点,那么这个事件就变成了必然事件,根据公理2,其概率
P r ( S ) = 1 Pr(S)=1 Pr(S)=1

③且根据集合论
S ∩ A = ∅ S \cap A=\emptyset SA=
所以S和A是不相关的

④根据集合论
S ∪ A = S S \cup A=S SA=S

⑤根据公理下面即将要证明的T2可以得到
P r ( S ) = P r ( S ∪ A ) = P r ( S ) + P r ( A ) = 1 Pr(S)=Pr(S\cup A)=Pr(S)+Pr(A)=1 Pr(S)=Pr(SA)=Pr(S)+Pr(A)=1
又因为②,可得到
P r ( A ) = 0 Pr(A)=0 Pr(A)=0
Q.E.D

没错⑤存在严重的逻辑问题,因为T2中用到了T1的结论,所以产生了相互证明的逻辑问题!注意,这种问题经常发生!


方法2:
设一个无限序列 A 0 , A 1 , A 2 , … A_0,A_1,A_2,\dots A0,A1,A2, 并且对于任意 A i = ∅ A_i=\emptyset Ai=,那么根据概率论可知他们都是不相交的 ∅ ∩ ∅ = ∅ \emptyset \cap \emptyset=\emptyset = ,根据公理3:
P r ( ∅ ) = P r ( ⋃ i = 0 ∞ A i ) = ∑ i = 0 ∞ P r ( A i ) = ∑ i = 0 ∞ P r ( ∅ ) Pr(\emptyset)=Pr(\bigcup^\infty_{i=0}A_i)=\sum^\infty_{i=0}Pr(A_i)=\sum^\infty_{i=0}Pr(\emptyset) Pr()=Pr(i=0Ai)=i=0Pr(Ai)=i=0Pr()
所以可以得到
P r ( A ) = 0 Pr(A)=0 Pr(A)=0
Q.E.D

T2: P r ( ⋃ i = 1 n A i ) = ∑ i = 1 n P r ( A i ) Pr(\bigcup^n_{i=1}A_i)=\sum^n_{i=1}Pr(A_i) Pr(i=1nAi)=i=1nPr(Ai)

T2是对公理3的一个退化版本,也可以叫加法原理,无限个不相交事件退化成有限个
证明:
我们可以假设当 m > n m>n m>n 时, A m = ∅ A_m=\emptyset Am= 所以:
P r ( ⋃ i = 1 n A i ) = P r ( ⋃ i = 1 ∞ A i ) = P r ( ⋃ i = 1 n A i ∪ ⋃ i = n + 1 ∞ A i ) = P r ( ⋃ i = 1 n A i ) + P r ( ⋃ i = n + 1 ∞ A i ) = P r ( ⋃ i = 1 n A i ) + 0 = ∑ i = 1 n ( P r ( A i ) ) Pr(\bigcup^n_{i=1}A_i)=Pr(\bigcup^\infty_{i=1}A_i)\\ =Pr(\bigcup^n_{i=1}A_i\cup\bigcup^\infty_{i=n+1}A_i)\\ =Pr(\bigcup^n_{i=1}A_i)+Pr(\bigcup^\infty_{i=n+1}A_i)\\ =Pr(\bigcup^n_{i=1}A_i)+0\\ =\sum^n_{i=1}(Pr(A_i)) Pr(i=1nAi)=Pr(i=1Ai)=Pr(i=1nAii=n+1Ai)=Pr(i=1nAi)+Pr(i=n+1Ai)=Pr(i=1nAi)+0=i=1n(Pr(Ai))
Q.E.D

T3: P r ( A c ) = 1 − P r ( A ) Pr(A^c)=1-Pr(A) Pr(Ac)=1Pr(A)

接下来就是更进一步的推到了,一般理论的发展就是,现有少量的公理,然后推出比较基础的使用广泛的性质,然后进一步推出更特殊的更专业的性质。

证明:
假设样本空间全集为S,根据公理2, P r ( S ) = 1 Pr(S)=1 Pr(S)=1 那么
A c ∩ A = ∅ A c ∪ A = S P r ( A ∪ A c ) = P r ( A ) + P r ( A c ) = P r ( S ) = 1 P r ( A ) = 1 − P r ( A c ) A^c\cap A=\emptyset\\ A^c\cup A=S\\ Pr(A\cup A^c)=Pr(A)+Pr(A^c)=Pr(S)=1\\ Pr(A)=1-Pr(A^c)\\ AcA=AcA=SPr(AAc)=Pr(A)+Pr(Ac)=Pr(S)=1Pr(A)=1Pr(Ac)
Q.E.D

T4: If A ⊂ B A\subset B AB then P r ( A ) ≤ P r ( B ) Pr(A)\leq Pr(B) Pr(A)Pr(B)

基本定理的证明都要用到集合论的知识,所以前面的集合论博客一定要先看哦!

A c ∩ B ≠ ∅ , s o , P r ( A c ∩ B ) > 0 A^c\cap B\neq \emptyset ,so,Pr(A^c\cap B)>0 AcB=,so,Pr(AcB)>0

B = A ∪ ( A c ∩ B ) B=A\cup(A^c\cap B) B=A(AcB)

A ∩ ( A c ∩ B ) = ∅ A\cap(A^c\cap B)=\emptyset A(AcB)=

P r ( B ) = P r ( A ) + P r ( A c ∩ B ) Pr(B)=Pr(A)+Pr(A^c\cap B) Pr(B)=Pr(A)+Pr(AcB)

P r ( B ) > P r ( A ) Pr(B)>Pr(A) Pr(B)>Pr(A)
Q.E.D

T5: 0 ≤ P r ( A ) ≤ 1 0\leq Pr(A)\leq 1 0Pr(A)1

对于全集S, A ⊂ S A\subset S AS P r ( S ) = 1 Pr(S)=1 Pr(S)=1 所以根据T5, P r ( A ) ≤ P r ( S ) Pr(A)\leq Pr(S) Pr(A)Pr(S)
再结合公理1,就可得到T5的结论
Q.E.D

T6: P r ( A ∩ B c ) = P r ( A ) − P r ( A ∩ B ) Pr(A\cap B^c)=Pr(A)-Pr(A\cap B) Pr(ABc)=Pr(A)Pr(AB)

根据T2

( A ∩ B ) ∩ ( A ∩ B c ) = ∅ (A\cap B)\cap(A\cap B^c)=\emptyset (AB)(ABc)=

( A ∩ B ) ∪ ( A ∩ B c ) = A (A\cap B)\cup(A\cap B^c)=A (AB)(ABc)=A

P r ( A ) = P r ( A ∩ B ) + P r ( A ∩ B c ) Pr(A)=Pr(A\cap B)+Pr(A\cap B^c) Pr(A)=Pr(AB)+Pr(ABc)

得出:
P r ( A ∩ B c ) = P r ( A ) − P r ( A ∩ B ) Pr(A\cap B^c)=Pr(A)-Pr(A\cap B) Pr(ABc)=Pr(A)Pr(AB)

Q.E.D

T7: P r ( A ∪ B ) = P r ( A ) + P r ( B ) − P r ( A ∩ B ) Pr(A\cup B)=Pr(A)+Pr(B)-Pr(A\cap B) Pr(AB)=Pr(A)+Pr(B)Pr(AB)

根据集合论中的结论:

A ∪ B = B ∪ ( A ∩ B c ) A\cup B=B\cup(A\cap B^c) AB=B(ABc)

B ∩ ( A ∩ B c ) = ∅ B\cap(A\cap B^c)=\emptyset B(ABc)=

所以
P r ( A ∪ B ) = P r ( B ) + P r ( A ∩ B c ) Pr(A\cup B)=Pr(B)+Pr(A\cap B^c) Pr(AB)=Pr(B)+Pr(ABc)

根据T6:
P r ( A ∪ B ) = P r ( A ) + P r ( B ) − P r ( A ∩ B ) Pr(A\cup B)=Pr(A)+Pr(B)-Pr(A\cap B) Pr(AB)=Pr(A)+Pr(B)Pr(AB)
Q.E.D

T8: Bonferroni Inequality

对于所有的事件 A 1 , A 2 , … , A n A_1,A_2,\dots,A_n A1,A2,,An
P r ( ⋃ i = 1 n A i ) ≤ ∑ i = 1 n P r ( A i ) P r ( ⋂ i = 1 n A i ) ≥ 1 − ∑ i = 1 n P r ( A i c ) Pr(\bigcup^n_{i=1}A_i)\leq \sum^n_{i=1}Pr(A_i) \\ Pr(\bigcap^n_{i=1}A_i)\geq 1-\sum^n_{i=1}Pr(A^c_i) Pr(i=1nAi)i=1nPr(Ai)Pr(i=1nAi)1i=1nPr(Aic)
书中并没有给出Bonferroni不等式的证明,但是感觉证明也并不难,

第一个不等式是说,当存在事件相关的时候,其和的概率会比其相加的小,T7给出了证明

?第二个不等式
1 = ∑ i = 1 n P r ( A i c ) P r ( ⋂ i = 1 n A i ) + ∑ i = 1 n P r ( A i c ) ≥ 1 1=\sum^n_{i=1}Pr(A^c_i)\\ Pr(\bigcap^n_{i=1}A_i)+\sum^n_{i=1}Pr(A^c_i)\geq 1 1=i=1nPr(Aic)Pr(i=1nAi)+i=1nPr(Aic)1
第二个不等式可能有点问题,因为题设并没说明白A是否能够构成样本空间的全集,或者我可能理解有问题,这个先画个问好吧。

P r ( a ) = 0 Pr(a)=0 Pr(a)=0

某个事件为概率为0并不意味着这件事永远不会发生,比如在连续的情况下,每个点的概率都是0,只有面积才有意义(这个后面会更详细的叙述)

总结

这篇入门知识总结相当全面,而且是从分析的角度进行入门,数学的美感完全让我忘记了饥饿,我的湿炒牛河都变成干炒了,明天继续。。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值