作为一门基础学科,概率论应用太广泛了,由于总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,参考用书是浙江大学盛骤编写的《概率论与数理统计》。
一、随机试验
参考用书中给出的关于随机试验的定义如下:
(个人比较喜欢各种数学定义,因为数学定义是对事物的高度抽象概括,可以很全面地总结一个东西。)
1.可以在相同条件下重复地进行;
2.每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;
3.进行一次试验结果前不确定哪一个结果会出现。
概括总结一下就是三点特性:试验的可重复性,结果的多样性、可明确性与不确定性。其实是个很简单的概念。
二、样本空间与随机事件
1.样本空间
定义:
我们将随机试验E的所有可能结果组成的集合称为E的样本空间,记为S。样本空间的元素,即E的每个结果,称为样本点。
同样是简单明了的定义。
2.随机事件
定义:
一般,我们称试验E的样本空间S的子集为E的随机事件,简称事件,在一次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生。
相关的就会有一堆我们常见的事件的定义了,比如S全集就是必然事件,空集就是不可能事件,另外每个元素都可以看作S的子集,所以它们也是事件,并被称为基本事件,因为它们是有可能发生的最小的事件集合。
可以从定义上看到,事件就是集合,他与试验是否发生并没有关系。
3.事件间的关系与运算
因为事件本质上就是集合,所以事件间的关系与运算其实就是集合的关系与运算,通过事件A、B给出下面一些关系:
相等: A ⊂ B a n d B ⊂ A ⇒ A = B A\subset B\, and\: B\subset A\Rightarrow A= B A⊂BandB⊂A⇒A=B
和事件: A ∪ B A\cup B A∪B
积事件: A ∩ B A\cap B A∩B
差事件: A − B A - B A−B
分别对应集合的并集、交集,差。此外当积事件为空集,称这两个事件互斥;特别的,如果他们的和事件还是S时,称他们互为对立事件。
事件的运算也就对应了集合的运算,相关的交换律结合律都满足,以及德摩根律。
A ∪ B ‾ = A ‾ ∩ B ‾ , A ∩ B ‾ = A ‾ ∪ B ‾ \overline{A\cup B}=\overline{A}\cap \overline{B},\overline{A\cap B}=\overline{A}\cup \overline{B} A∪B=A∩B,A∩B=A∪B
其意义也很直白,A与B其中一个发生的对立事件就是A与B均不发生,以上的所有关系都和集合一样可以推广到n个事件的关系,不再赘述。
提到集合的交并补就容易想到容斥原理:
容斥原理描述集合并集的元素个数与各个集合元素个数的关系,从公式上直观的理解其实是很形象的,先直接把各个集合的元素相加,然后把两两的交集减去,因为交集中的元素重复计算了一次,再把三个集合的元素加回来,因为这些交集中的元素在前一个减式中被重复减去了一次…
容斥原理在组合中有很多应用,一种最常见的思路就是将组合问题分解为求子问题并集的方式(交集问题可以取反)分别求解,然后通过容斥原理进行合并。
三、频率与概率
频率定义:
在相同条件下,进行了n次试验,在这n次试验中,事件A发生的次数 n A n_{A} nA为事件A发生的频数,比值 n A n_{A} nA/ n称为事件A发生的频率,并记成 f n ( A ) f_{n}(A) fn(A).
概率定义:
设E是随机试验,S是它的样本空间,对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率,如果集合函数P()满足下列三条:
非负性:函数值恒大于等于0
规范性:P(S)=1
可列可加性:互斥事件的概率之和等于其和事件的概率。
比较可以发现,频率是满足概率的三条性质的,所有频率其实就是概率的一种特例,其实就是一种古典概型。
通过概率的三条性质有一些简单的推论,如概率恒小于等于1,空集概率为0,对立事件的概率等。值得一提的是加法公式:
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B) = P(A) +P(B)-P(AB) P(A∪B)=P(A)+P(B)−P(AB)
原理与容斥原理一样,A、B和事件发生的概率等于其各自发生的概率之和减去重复计算了一次的AB积事件。
四、古典概型
满足以下两点性质的随机试验E称为古典概型:
试验的样本空间只包含有限的元素;
试验中每个基本事件发生的可能性相同。
总结起来就是有限性与等可能性。古典概型在生活中的例子比比皆是,抛硬币、掷色子等等,所以它也是概率论早期的主要研究对象。
古典概型的概率计算公式其实就前面所说的频率了,它的计算公式十分简单直观:
P ( A ) = ∣ A ∣ ∣ S ∣ P(A) = \tfrac{\left | A \right |}{\left | S \right |} P(A)=∣S∣∣A∣
实际推断原理:
小概率事件实际上在试验中几乎是不发生的。
这个原理看起来很朴素,其实有时候在学习的过程中是有用处,比如你的实验如果发生了小概率事件,那很有可能就是你的实验存在系统上的问题了hhh
还有一些看名字就能明白的概念,放回抽样不放回抽样不再介绍。
五、条件概率
条件概率是很重要的一个概念,它表述的是在某种条件下事件发生的概率,它的定义如下:
事件A在B发生的条件下,发生的概率记为 P ( A ∣ B ) P(A\mid B) P(A∣B)
P ( A ∣ B ) = P ( A B ) / P ( A ) P(A\mid B) = P(AB)/P(A) P(A∣B)=P(AB)/P(A)
很容易可以验证,条件概率满足概率的三条性质,所以条件概率也是概率。将公式变换一下就可以得到所谓的乘法公式:
P ( A B ) = P ( A ∣ B ) ⋅ P ( B ) P(AB) = P(A\mid B)\cdot P(B) P(AB)=P(A∣B)⋅P(B)
这个公式可以推广到n个事件的积事件的概率,这都是一样的。这个公式也很好理解,就是我要去考察事件A和B同时发生的概率,我只需要去考虑A先发生,然后B在A发生的条件下的概率,这两个条件同时满足就是公式右边。
顺着这个思路发展下去,一个事件A的发生可以整理出一系列原因 B i B_{i} Bi,那么由某个原因导致该事件发生的概率其实就是乘法公式,将所有这些原因导致A发生的概率求和就是全概率公式:
P ( A ) = ∑ i n P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i}^{n}P(A\mid B_i )P(B_i) P(A)=∑inP(A∣Bi)P(Bi)
其中 B 1 . . . B n B_1...B_n B1...Bn是样本空间S的一个划分,它需要满足两两之间互斥,并且所有 B i B_i Bi的和事件是S。可以简单地理解为把一个大饼切完以后的集合,所以划分这个名字还是十分贴切的。
有了这些基础,我们的贝叶斯公式也就呼之欲出了:
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) / ∑ i n P ( A ∣ B i ) P ( B i ) P(B_i\mid A)=P(A\mid B_i)P(B_i)/\sum_{i}^{n}P(A\mid B_i )P(B_i) P(Bi∣A)=P(A∣Bi)P(Bi)/∑inP(A∣Bi)P(Bi)
贝叶斯公式求出来的概率也就是我们常说的后验概率,如果说全概率公式是由因到果的话,贝叶斯公式就是由果索因,贝叶斯公式中的分母其实就是事件A发生的概率。它表述的是当事件A已经发生的条件下, B i B_i Bi发生的一个条件概率,其实也就是这个结果(A发生)由 B i B_i Bi导致的概率。
六、独立性
独立性是概率论里时时刻刻都要讨论的一个问题,因为目前还只讲了随机事件,先介绍随机事件的独立性,其定义如下:
称满足以下等式的两个事件A、B互相独立
P ( A B ) = P ( A ) ⋅ P ( B ) P(AB) = P(A)\cdot P(B) P(AB)=P(A)⋅P(B)
将其推广到n个事件的话,要求任意k(<=n)个事件满足以上等式,可以看到独立性有着相当严格的定义。所以它也有着非常好的性质,一旦我发现两个事件是独立的,就可以完全分开去考虑了,这会大大简化问题。我们现实中遇到的问题往往是有着千丝万缕的关系,所以也常常不是独立的。
总结
第一次写博客,写了好久,虽然都是基础中的基础,但是也是一个不错的开始,希望自己可以坚持!2020.9.22