【机器学习数学基础】——3、概率论与数理统计

一、概率论基础

1.1 概率论基础

1.1.1、概率论与数理统计定义

我们知道,自然界中的现象可化为为如下两类:

  • 确定性现象:条件完全决定结果,比如太阳东升西落
  • 随机性现象:条件不完全决定结果(可能出现这样的结果,也可能出现那样的结果,预先无法断言),比如明天是否下雨

进一步,什么是概率论与数理统计呢?简而言之,二者都是对随机性现象进行研究的数学工具,具体来说如下:

  • 随机性现象:具有不确定性与统计规律性
  • 概率论:从数量上研究随机现象的统计规律性的科学
  • 数理统计:从应用角度研究处理随机性数据,建立有效的统计方法,进行统计推理

1.1.2、随机试验定义

定义:在概率论中,将具有下述三个特点的试验称为随机试验,简称试验。随机试验常用E表示。

  • 试验的可重复性——在相同条件下可重复进行
  • 一次试验结果的随机性——一次试验的可能结果不止一个,且试验之前无法确定具体是哪种结果出现
  • 全部试验结果的可知性——所有可能的结果是预先可知的,且每次试验有且仅有一个结果出现

例如:
E 1 E_1 E1抛一枚硬币,观察正面 H H H、反面 T T T出现的情况
E 2 E_2 E2掷一颗骰子,观察出现的点数

1.1.3 样本空间与样本点的定义

  • 样本空间:试验的所有可能结果所组成的集合称为试验 E E E的样本空间,记为 Ω \Omega Ω
  • 样本点:试验的每一个可能出现的结果(样本空间中的元素)称为试验 E E E的一个样本点,记为 ω \omega ω

例如:
E 1 E_1 E1:抛一枚硬币,观察正面 H H H、反面 T T T出现的情况; Ω 1 = { H , T } \Omega_1=\{H,T\} Ω1={H,T}
E 2 E_2 E2:掷一颗骰子,观察出现的点数情况; Ω 2 = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega_2=\{1,2,3,4,5,6\} Ω2={1,2,3,4,5,6}

1.2 事件与概率

1.2.1 随机事件/基本事件/复合事件定义

  • 随机事件:样本空间的任意一个子集称为随机事件,简称为事件,记作 A , B , C A,B,C A,B,C

例如,在试验 E 2 E_2 E2中,令 A A A表示为"出现奇数点", A A A就是一个随机事件。

  • 基本事件:仅包含一个样本点 ω \omega ω的随机事件,即单点子集 { ω } \{\omega\} {ω}
  • 复合事件:包含两个或两个以上样本的事件

1.2.2 事件的性质和运算

事件的本质是集合,而集合的一切性质和运算都适用于事件。

1.2.3 频率与概率定义

  • 频率:在相同的条件下,进行了 n n n次试验,在这 n n n次试验中,事件 A A A发生的次数 n A n_A nA,称为事件 A A A发生的频数。比值 n A n \frac{n_A}{n} nnA称为事件A发生的频率,并记成 f n ( A ) f_n(A) fn(A)
  • 概率:在相同的条件下进行 n n n次重复试验,当 n n n趋于无穷大时,事件 A A A发生的频率 f n ( A ) f_n(A) fn(A)稳定于某个确定的常数 p p p,称此常数 p p p为事件 A A A发生的概率,记作 P ( A ) = p P(A)=p P(A)=p

注:上述概率定义属于频率学派定义,实际上学术界有两种观点,一种是频率学派,一种是贝叶斯学派。

1.2.4 概率的性质

  • 性质1、 0 ≤ P ( A ) ≤ 1 , P ( ϕ ) = 0 0 \le P(A) \le 1, P(\phi)=0 0P(A)1,P(ϕ)=0 (任何一个事件概率介于0到1之间,空事件概率为0)
  • 性质2、 P ( A ˉ ) = 1 − P ( A ) P(\bar{A})=1-P(A) P(Aˉ)=1P(A)(互补性,任何事件的补事件概率= 1 − 1- 1这个事件的概率)
  • 性质3、 P ( A − B ) = P ( A ) − P ( A B ) P(A-B)=P(A)-P(AB) P(AB)=P(A)P(AB)
  • 性质4、对于任意事件 A , B A,B A,B,有 P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) P(A+B)=P(A)+P(B)-P(AB) P(A+B)=P(A)+P(B)P(AB)(加法公式)

例题

例1、设 A , B A,B A,B为两个随机事件, P ( A ) = 0.5 P(A)=0.5 P(A)=0.5 P ( A B ) = 0.8 P(AB)=0.8 P(AB)=0.8 P ( A ∪ B ) = 0.3 P(A \cup B)=0.3 P(AB)=0.3,求 P ( B ) P(B) P(B)

答:
∵ P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) \because P(A+B)=P(A)+P(B)-P(AB) P(A+B)=P(A)+P(B)P(AB)
∴ P ( B ) = P ( A + B ) − P ( A ) + P ( A B ) = 0.8 − 0.5 + 0.3 = 0.6 \therefore P(B)=P(A+B)-P(A)+P(AB)=0.8-0.5+0.3=0.6 P(B)=P(A+B)P(A)+P(AB)=0.80.5+0.3=0.6

1.3 古典概型与几何概型(最简单的概率分布)

1.3.1 古典概型和几何概型的定义

  • 古典概型:理论上,具有下面两个特点的随机试验的概率模型,称为古典概型(或等可能概型):
    • 有限性:基本事件的总数是有限的,换句话说样本空间仅含有有限个样本点
    • 等可能性:每个基本事件发生的可能性相同

把有限个样本点推广到无限个样本点的场合,人们引入了几何概型,由此形成了确定概率的另一方法——几何方法

  • 几何概型:若对于一随机试验,具有下面三个特点的概率模型,称为几何概型:
    • 每个样本点出现是等可能的
    • 样本空间 Ω \Omega Ω所含的样本点个数为无穷多个
    • 具有非零的,有限的几何度量,即 0 < m ( Ω ) < ∞ 0<m(\Omega)<\infty 0<m(Ω)<

1.3.2 古典概型和几何概型的计算公式

  • 古典概型的概率计算公式如下:
    • 设事件 A A A中所含样本点个数为 r r r,样本空间 Ω \Omega Ω中样本点总数为 n n n,则有: P ( A ) = r n = A 中 样 本 点 数 Ω 中 样 本 点 总 数 = A 所 包 含 的 基 本 事 件 数 基 本 事 件 总 数 P(A) = \frac {r} {n} = \frac {A中样本点数} {\Omega中样本点总数} = \frac {A所包含的基本事件数} {基本事件总数} P(A)=nr=ΩA=A
  • 几何概型的概率计算公式如下:
    • 当随机试验的样本空间是某个区域,并且任意一点落在度量(长度,面积,体积)相同的子区域是等可能的,则事件A的概率可定义为: P ( A ) = m ( A ) m ( Ω ) P(A) = \frac{m(A)}{m(\Omega)} P(A)=m(Ω)m(A) 其中, m ( Ω ) m(\Omega) m(Ω)是样本空间的度量, m ( A ) m(A) m(A)是构成事件 A A A的子区域的度量

例题

例1:从1,2,….9这9个数字中任意取一个数,取后放回,而后再取一数,试求取出的两个数字不同的概率。

答:基本事件总数 n = 9 2 n=9^2 n=92,因为第一次取数有 9 9 9种可能取法,这是可重复排列问题。设 A A A表示“取出的两个数字不同”。 A A A包含的基本事件数 9 ∗ 8 9*8 98:因为第一次取数有 9 9 9中可能取法,为保证两个数不同,第二次取数应从另外的 8 8 8个数中选取,有 8 8 8中可能取法, r = 9 ∗ 8 r=9*8 r=98,故 P ( A ) = r n = 9 ∗ 8 9 2 = 8 9 P(A) = \frac{r}{n} = \frac{9*8}{9^2} = \frac{8}{9} P(A)=nr=9298=98

二、条件概率

2.1 条件概率

2.1.1 前置定义

在学习条件概率定义之前,我们先介绍以下几个定义:

  • 相互独立:事件 A A A发生对事件 B B B发生的概率没有影响,则称两事件是相互独立。
  • 和事件:事件 A A A B B B至少有一个发生的事件叫做 A A A B B B的和事件,记为 A ∪ B A \cup B AB A + B A + B A+B
  • 积事件:事件 A A A B B B都发生的事件叫做 A A A B B B的积事件,记为 A ∩ B A \cap B AB A B AB AB
  • 互斥:若 A B AB AB为不可能事件,则说事件 A A A B B B互斥

2.1.2 条件概率定义

  • 一般地,设 A A A B B B为两个事件,且 P ( A ) > 0 P(A)>0 P(A)>0,称: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{P(AB)}{P(A)} PBA=P(A)P(AB)为在事件 A A A发生的条件下,事件 B B B发生的条件概率 P ( B ∣ A ) P(B|A) P(BA),读作: A A A发生的条件下, B B B的概率

2.1.3 条件概率的几何意义

P ( B ∣ A ) P(B|A) P(BA)相当于把 A A A看作新的基本事件,求 A ∩ B A \cap B AB发生的概率,如下图:
条件概率几何意义

  • 0 ≤ P ( B ∣ A ) ≤ 1 0≤P(B|A)≤1 0P(BA)1
  • 可加性:如果 B B B C C C互斥,那么 P [ ( B U C ) ∣ A ] = P ( B ∣ A ) + P ( C ∣ A ) P[(BUC)|A]=P(B|A)+P(C|A) P[(BUC)A]=P(BA)+P(CA)

2.1.4 乘法公式

  • 乘法公式:
    • P ( B ) > 0 P(B)>0 P(B)>0,由条件概率定义,可得: P ( A B ) = P ( B ∣ A ) P ( A ) = P ( A ∣ B ) P ( B ) P(AB) = P(B|A)P(A) = P(A|B)P(B) P(AB)=P(BA)P(A)=P(AB)P(B) 上式成为条件事件的乘法公式。此外,若 A A A B B B事件相互独立,那么 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
  • 条件概率下的链式法则:
    • 前一个公式可以推广到设 A 1 , A 2 , A 3 , . . . , A n A_1,A_2,A_3,...,A_n A1,A2,A3,...,An为任意 n n n个独立事件,且 P ( A 1 A 2 … A n ) > 0 P(A_1 A_2…A_n)>0 P(A1A2An)>0,则 P ( A 1 A 2 … A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 A 2 . . A n − 1 ) P(A_1 A_2…A_n)=P(A_1)P(A_2|A_1)P(A_3 | A_1 A_2)...P(A_n | A_1 A_2..A_{n-1}) P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2..An1)那么我们称这个公式是条件概率下的链式法则

2.2 全概率公式

2.2.1 排列与组合

三、概率分布与统计量

3.1 概率分布类型

3.2 期望与方差

3.3 高斯分布

四、概率分布进阶

4.1 分布函数

4.2 均匀分布

4.3 指数分布

五、联合分布

5.1 二维随机变量及联合概率分布

5.2 边缘概率

六、主成分分析法

6.1 多维分布与协方差

6.2 主成分分析法

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值