DAY10 概率论基础

随机变量及其分布

1.定义

随机变量是一个从样本空间(所有可能结果的集合)到实数集的函数。样本空间中的每个结果都对应于随机变量的一个值。随机变量的值可以是离散的,也可以是连续的。随机变量通常用大写字母表示,如 X、Y 或 Z。

随机变量和事件的联系

定义事件

事件可以定义为随机变量取特定值的集合。一般用{X=?}表示。

例如,如果随机变量 X 表示掷骰子的结果,那么事件 "掷得奇数" 可以表示为 {X=1} 或 {X=3}或 {X=5}。

使用随机变量描述事件

随机变量的值可以定义复杂的事件。

例如,事件 "掷骰子的结果大于4" 可以表示为 {X>4},其中 X 是随机变量。

例如,掷硬币的结果为正面、反面,在数学中不方便描述,可以将正面映射为数字1,反面映射为0,那么事件"掷出正面"可以表示为{X=1},事件"掷出反面"可以表示为{X=0}。

概率分布

随机变量的概率分布描述了它取每个可能值的概率。这个分布可以用来计算事件的概率。在随机变量表示的事件前加上P来表示:P{X=?}或者P(X=?)。

例如,随机变量 X 的概率质量函数(PMF)或概率密度函数(PDF)可以用来计算 P(X=k) 或 P(a<X<b)。

2.离散型随机变量及其概率分布

离散型随机变量的特点

  1. 可数性:随机变量的取值是可数的,即有限个或可数无限个。

  2. 离散性:取值之间有“间隔”,不是连续变化的。

  3. 概率分布:每个取值都有一个特定的概率,且所有取值的概率之和等于1。

离散型随机变量的概率分布:

离散型随机变量的概率分布通常由概率质量函数(Probability Mass Function, PMF)描述。PMF 定义了随机变量每个可能取值的概率。

概率质量函数(PMF):

对于离散型随机变量 X,其概率质量函数为

,其中 x* 是 X 可能取的值。PMF 满足以下条件:

  1. 非负性:对于所有的 x,有 P(X=x)≥0。

  2. 归一性:所有可能取值的概率之和等于1,即

3.连续型随机变量及其概率密度函数

连续型随机变量是取值可以是某个区间内任意实数的随机变量。与离散型随机变量不同,连续型随机变量的取值是连续的,不可数的。连

续型随机变量的概率分布通常由概率密度函数(Probability Density Function, PDF)描述。

连续型随机变量的特点:

  1. 连续性:随机变量的取值是连续的,可以在一个或多个区间内取任意值。

  2. 不可数性:取值是不可数的,即有无限多个可能的取值。

  3. 概率分布:每个取值区间都有一个特定的概率,且整个取值范围的概率密度函数积分等于1。

  4. 连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。

  5. 连续情况下,端点无所谓。P{a≤x≤b}=P{a<x<b}

概率密度函数

对于一维实随机变量X,如果存在非负可积函数f(x),使得对于任意实数x,

,则称f(x)为随机变量X的概率密度函数。

密度函数f(x) 具有下列性质:

非负性:对于所有的 x,有

归一性:概率密度函数在整个取值范围的积分等于1,即

概率密度函数的积分其实就是求曲线在某个区间内的面积。

4.分布函数

分布函数是描述随机变量取值分布情况的函数,无论是离散型随机变量还是连续型随机变量,都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数(Cumulative Distribution Function, CDF),用 F(x) 表示。

累积分布函数(CDF)

对于随机变量 X,其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率:

CDF 的性质

  1. 非减性:随着 x 的增加,F(x) 是非减的,即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。

  2. 范围:F(x)的值域在 0 到 1 之间,即 0≤F(x)≤1。

  3. 边界条件:

     4.右连续:F(x) 在任意点 x 都是右连续的。对于离散型随机变量,F(x) 在任意点 x 是右连续,        对于连续型随机变量,F(x) 在任意点 x 是连续的。

公式

5.常见的分布

5.1 0-1分布

0-1分布,也称为伯努利分布,是一种特殊的离散概率分布。它描述了在单次伯努利试验中只有两种可能结果的随机变量,通常这两种结果被称为“成功”和“失败”。

对于伯努利随机变量 XX,其概率质量函数为:

5.2 几何分布

几何分布(Geometric Distribution)是描述在成功之前需要进行的试验次数的离散型概率分布。具体来说,几何分布描述的是在独立重

复的伯努利试验中,首次成功所需的试验次数。

如果随机变量 X 表示获得第一次成功所需的试验次数,那么几何分布的概率质量函数为:

5.3 二项分布

二项分布的概率质量函数(PMF):

如果随机变量 X 表示 n 次伯努利试验中成功的次数,那么 X 服从参数为 n 和 p 的二项分布,记作 X∼B(n,p)。二项分布的概率质量函数为:

5.4 泊松分布

泊松分布(Poisson Distribution)是描述在固定时间或空间内事件发生次数的离散型概率分布。它适用于事件发生的概率较小且事件之间相互独立的情况。

设随机变量 X 服从泊松分布,其参数为 λ,表示单位时间或空间内事件发生的平均次数。则 X 的概率质量函数(PMF)为:

5.5 均匀分布

在连续均匀分布中,所有可能的结果是连续的,并且在相同长度间隔的分布概率是相同的。

均匀分布的概率密度函数(PDF):

对于连续型随机变量 X,如果它服从区间 [a,b]上的均匀分布,其概率密度函数为:

累积分布函数(CDF):  

5.6 指数分布

指数分布(Exponential Distribution)是一种连续概率分布,它描述了在两个连续事件发生之间的时间间隔,这两个事件是完全随机

的,且具有恒定的平均发生率。指数分布通常用于模拟独立随机事件发生的时间间隔,如电话呼叫的到达时间、放射性物质的衰变时间

等。

概率密度函数

其中:

  • x 是随机变量,表示事件发生的时间间隔。

  • λ 是率参数,表示单位时间内事件发生的平均次数。

分布函数

5.7 正态分布

正态分布(Normal Distribution),也称为高斯分布(Gaussian Distribution),是连续概率分布的一种。它是统计学中最重要的概率

分布之一,因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用,包括生物学、物理

学、经济学和社会科学,记作:

5.7.1 正态分布

概率密度函数

其中:

  • x 是随机变量。

  • μ 是均值。

  • σ是标准差。

  • σ^2是方差。

性质 (1)y=f(x)以x=u为对称轴 (2)x=u时,f(x)取到最大值 (3)y=f(x)以x轴为渐近线,x±σ为拐点 (4)σ固定,u变化,图像左右移动;u固定,σ变小,最高点上移,σ变大,最高点下移

 分布函数

5.7.2 标准正态分布

标准正态分布的均值为0,标准差为1

概率密度函数

分布函数  

 

5.7.3 正态分布标准化

假设 X 是一个服从正态分布的随机变量,记作

,其中:μ 是均值,σ^2 是方差。
 

标准化的步骤如下:

  1. 中心化:将 X 减去均值 μ,得到一个新的随机变量 Y:Y=x−μ

此时,Y 的均值为0,方差仍为 σ^2。

  1. 标准化:将 Y 除以标准差 σ,得到一个新的随机变量 Z:

此时,Z 的均值为0,方差为1,即 Z∼N(0,1)。

 

6.离散型随机变量函数的分布

离散型随机变量函数的分布通常指的是如何从已知的离散型随机变量出发,通过某种函数关系得到新的随机变量,并确定这个新随机变量

的概率分布。

离散型随机变量函数的分布的计算方法:

假设有一个离散型随机变量 X,其概率质量函数(PMF)为 P(X=x),现在我们定义一个新的随机变量 Y=g(X),其中 g 是一个函数。我们想要找到 Y 的概率分布。

1. 直接法:

对于每一个可能的 y 值,我们可以通过以下步骤计算 Y 取值为 y 的概率:

  1. 确定 x 的值:找出所有使得 g(x)=y 成立的 x 的值。

  2. 计算概率:对于每个满足条件的 x,将 X 取该值的概率相加。

数学上,这可以表示为:

其中

表示所有使得 g(x)=y成立的 x 的集合。可以理解为y=g(x)的逆函数。

2. 间接法:

如果函数 g 是单调的,或者 Y 的取值范围有限,我们可以通过以下步骤计算 Y 的概率分布:

  1. 列出所有可能的 y 值:确定 Y 可能取到的所有值。

  2. 计算每个 y 的概率:对于每个 y,计算 P(Y=y)。

对于离散型随机变量函数的分布函数计算,最简单的方法是列出随机变量X的分布表,然后根据新的函数关系计算出新随机变量Y的值,其值对应的概率就是X原来值对应的概率值,然后形成分布表,如果Y值有重复,则将重复值对应的概率相加即可。

7.连续型随机变量函数的分布

连续型随机变量函数的分布是指通过一个连续型随机变量 XX 的函数 Y=g(X)得到的新的随机变量 Y 的分布。

计算方法:

分布函数法

  1. 计算 Y 的分布函数:

    2.求导得到概率密度函数:

 

多维随机变量及其分布

1.二维随机变量及其分布

假设E是随机试验,Ω是样本空间,X、Y是Ω的两个变量;(X,Y)就叫做二维随机变量或二维随机向量。X、Y来自同一个样本空间。

联合分布函数

2.二维离散型随机变量的联合分布和边缘分布

联合概率质量函数 P(X=x,Y=y) 描述了随机变量 X 和 Y 同时取特定值 x 和y 的概率。联合PMF满足以下性质:

  1. 非负性:对于所有的 x 和 y,有 P(X=x,Y=y)≥0。

  2. 归一性:所有可能的 x 和 y 值的概率之和等于1,即:

联合分布函数  

概率分布表解释:

F(x,y)的值就是在分布表中找到对应的(x,y)对应的位置,然后将其左上角的概率相加。

边缘分布

边缘概率质量函数可以通过对联合PMF的适当求和得到。

  1. 边缘PMF

:表示随机变量 X 取特定值 x 的概率,不考虑 Y的值。计算方法为:  

  1. 其中,求和是对所有可能的 y 值进行。

  2. 边缘PMF

:表示随机变量 Y取特定值 y 的概率,不考虑 X 的值。计算方法为:  

        其中,求和是对所有可能的 x 值进行。

概率分布表解释:

对行求和,得到对X的边缘分布。

对列求和,得到对Y的边缘分布。

 

3.二维连续随机变量的联合密度和边缘密度函数

对于二维连续随机变量 X 和 Y,其分布函数为:

则F(x,y)是分布函数,f(x,y)是联合密度函数。

f(x,y)的性质:

  1. 非负性:对于所有的 x 和 y,有 f(x,y)≥0。

  2. 归一性:在整个 x 和 y 的取值范围上的积分等于1,即:

这个积分是对所有可能的 x 和 y 值进行的。  

边缘密度函数

边缘分布函数:

求导,得出边缘密度函数:  

求X的边缘密度函数就是对y求积分,对Y的边缘密度函数就是对x求积分。  

4.条件分布

条件分布是指在已知另一个随机变量或事件的条件下,该随机变量的概率分布。

5.离散型随机变量的条件分布

条件概率质量函数定义为:

其中 P(X=x,Y=y)是 X 和 Y的联合概率质量函数,P(Y=y) 是 Y 的边缘概率质量函数。  

6.连续型随机变量的条件分布

在Y=y条件下,条件概率密度函数为:

 其中 f(x,y) 是 X 和 Y 的联合概率密度函数,

是 Y的边缘概率密度函数。

同理,在X=x条件下,条件概率密度函数为:

 其中 f(x,y) 是 X 和 Y 的联合概率密度函数,

是 X的边缘概率密度函数。

在Y=y的条件下,X的条件分布函数:

在X=x的条件下,Y的条件分布函数:

7.随机变量的独立性

定义

两个随机变量 X 和 Y 被称为独立的,如果它们满足以下条件:

对于连续型随机变量:它们的联合概率密度函数f(x,y)可以表示为各自边缘概率密度函数的乘积:

对于离散型随机变量:它们的联合概率质量函数P(X=x,Y=y)可以表示为各自边缘概率质量函数的乘积:  

8.二维随机变量函数的分布

8.1 二维离散型随机变量函数的分布

二维离散型随机变量函数的分布指的是在给定两个离散型随机变量 X 和 Y的情况下,它们函数 Z=g(X,Y)的分布。这里g(X,Y)是一个定义在 X和 Y取值范围内的函数。要找到函数 Z 的分布,我们需要确定 Z 的每一个可能值的概率。具体步骤如下:

  1. 确定函数的输出值:列出函数 Z=g(X,Y)可能的所有输出值。

  2. 计算每个输出值的概率:对于每一个可能的输出值 z,计算 Z=z的概率。这通常涉及到对 X 和 Y的联合概率质量函数 P(X=x,Y=y)进行求和。

  3. 构建概率质量函数:构建函数 Z 的概率质量函数,即对于每一个可能的 z,确定 P(Z=z)。

 

8.2 二维连续型随机变量函数的分布

二维连续型随机变量函数的分布是指由两个连续型随机变量 (X,Y)构成的联合分布,并通过某种函数关系 Z=g(X,Y)得到一个新的随机变量 Z的分布。

期望与方差

1.数学期望

数学期望是概率论中的一个重要概念,它描述了一个随机变量的平均值或中心值。数学期望也被称为期望值或均值。它是对随机变量可能取值的加权平均,其中权重是每个可能取值的概率。

1.1 离散型随机变量的期望

对于离散随机变量 X ,其可能的取值为 x1,x2,…,xn,对应的概率为

,则 X 的数学期望定义为:  

其中 xi是随机变量 X 的可能取值,pi是 X取值为 xi的概率。  

1.2 连续型随机变量的期望

对于连续随机变量 X ,其概率密度函数为 f(x) ,则 X 的数学期望定义为:

1.3 随机变量函数的期望

1.3.1 离散型随机变量函数的期望

如果 X 是一个离散随机变量,其可能的取值为 x1,x2,…,xn,对应的概率为 P(X=xi)=pi,那么函数 Y=g(X) 的期望值定义为:

1.3.2 连续型随机变量函数的期望

如果 X 是一个连续随机变量,其概率密度函数为 f(x),那么函数 Y=g(X)的期望值定义为:

1.3.3 二维离散型随机变量函数的期望

如果 (X,Y) 是离散随机变量,其取值集合为 {(xi,yj)} ,对应的概率为

,那么函数 Z=g(X,Y) 的数学期望定义为:  

说明:  

表示将X、Y的所有取值按照Z=g(X,Y) 计算出新的取值。  

1.3.4 二维连续型随机变量函数的期望

如果 (X,Y) 是连续随机变量,其联合概率密度函数为 f(x,y),那么函数 Z=g(X,Y)的数学期望定义为:

这里,g(X,Y) 是 X和 Y的函数。  

1.4 数学期望的性质

  1. 常数的期望等于常数,EC=C

  2. E(X+C)=EX+C

  3. E(CX)=C*EX

  4. E(kX+b)=k*EX+b

  5. E(X±Y)=EX+EY (任何时候都成立 ) E(∑CiXi) = ∑CiEXi

  6. X、Y独立,E(XY)=EX*EY

当然,我很乐意帮助你制定一个42天的深度学习学习计划,以学习李宏毅的深度学习为主题。以下是我为你设计的详细计划: Day 1-3: 第1章 - 深度学习概述 - 学习深度学习的基本概念和背景知识 - 了解深度学习的发展历程和应用领域 Day 4-7: 第2章 - 数学基础 - 复习线性代数和概率论的基本知识 - 学习矩阵运算、梯度和偏导数的计算方法 Day 8-10: 第3章 - 感知器与多层感知器 - 学习感知器和多层感知器的原理和结构 - 理解前向传播和反向传播算法的实现 Day 11-13: 第4章 - 深度学习的训练与优化 - 学习常用的优化算法,如随机梯度下降(SGD) - 掌握正则化、批归一化和参数初始化等技术 Day 14-16: 第5章 - 卷积神经网络 - 深入了解卷积神经网络(CNN)的原理和应用 - 学习卷积、池化和填充等操作的计算方法 Day 17-20: 第6章 - 递归神经网络与长短期记忆网络 - 学习递归神经网络(RNN)和长短期记忆网络(LSTM)的结构和应用 - 掌握序列模型的训练和生成方法 Day 21-24: 第7章 - 生成模型与变分自编码器 - 学习生成模型的基本概念和常见算法 - 理解变分自编码器(VAE)的原理和训练过程 Day 25-28: 第8章 - 强化学习 - 了解强化学习的基本概念和主要算法 - 学习马尔可夫决策过程(MDP)和Q-learning等强化学习方法 Day 29-31: 第9章 - 深度强化学习 - 学习深度强化学习的原理和常用算法 - 掌握深度Q网络(DQN)和策略梯度等方法 Day 32-35: 第10章 - 迁移学习与领域自适应 - 了解迁移学习和领域自适应的基本概念和方法 - 学习如何利用预训练模型和迁移学习改善模型性能 Day 36-39: 第11章 - 生成对抗网络 - 深入了解生成对抗网络(GAN)的原理和应用 - 学习生成器和判别器的训练策略和技巧 Day 40-42: 第12章 - 强化学习与无监督学习 - 学习强化学习和无监督学习的结合方法和应用 - 了解最新的研究进展和前沿领域 请注意,这只是一个大致的学习计划,你可以根据自己的实际情况进行调整。另外,每天的学习时间和进度也要根据个人的情况来安排,确保你能够理解和消化所学内容。祝你学习顺利!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值