概率导论（二）——离散随机变量

最新推荐文章于 2022-06-05 13:57:19 发布

哎呦哥哥、

最新推荐文章于 2022-06-05 13:57:19 发布

阅读量759

点赞数 1

分类专栏：《概率导论》学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/jm863936705/article/details/107087963

版权

《概率导论》学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考书：《概率导论》，作者：Dimitri P. Bertsekas，John N. Tsitsiklis。
本系列博客为自学《概率导论》笔记。

思维导图

离散随机变量思维导图

基本概念

对于样本空间中的每一个试验结果，都关联着一个特定的数。这种试验结果与数的对应关系形成随机变量。
我们将试验结果所对应的数称为随机变量的取值。

从数学上讲，随机变量是试验结果的实值函数。

与随机变量相关的主要概念：
在一个试验的概率模型之下：
- 随机变量是试验结果的实值函数；
- 随机变量的函数定义了另一个随机变量；
- 对于一个随机变量，我们可以定义一些平均值，例如均值和方差；
- 可以在某事件或某随机事件的条件之下定义一个随机变量；
- 存在一个随机变量与某事件或某随机变量相互独立的概念。
若一个随机变量的值域（随机变量的取值范围）为一个有限集合或最多为可数无限集合，则称这个随机变量为离散的。
与离散随即变量相关的概念：
在一个试验的概率模型之下：
- 离散随机变量是试验结果的一个实值函数，但是它的取值范围只能是有限多个值或可数无限多个值；
- 一个离散随机变量有一个分布列，它对于随机变量的每一个取值，给出一个概率；
- 离散随机变量的函数也是一个离散随机变量，它的分布列可以从原来的随机变量的分布列得到。

分布列

离散随机变量的取值概率是随机变量的最重要的特征，我们用分布列表示这种特征，并且有 $p_X$ 表示随机变量 $X$ 的分布列。
设 $x$ 是随机变量 $X$ 的取值，则 $X$ 取值为 $x$ 的概率定义为事件 $\lbrace{X=x}\rbrace$ 的概率，即所有与 $x$ 对应的试验结果所组成的事件的概率，用 $p_X(x)$ 表示，即 $p_X(x)=P(\lbrace{X=x}\rbrace).$
为了不引起混淆，我们用 $P (X = x)$ 表示事件 $\lbrace{X=x}\rbrace$ 的概率。
我们用大写字母表示随机变量，用小写字母表示实数。
对于分布列，我们有 $\sum_xp_X(x)=1.$ 其中求和是对随机变量 $X$ 的一切可能的取值而来的。
对于不同的 $x$ ，事件 $\lbrace{X=x}\rbrace$ 是互不相容的，并且对所有的 $x$ ，事件系列 $\lbrace{X=x}\rbrace$ 形成了样本空间的一个分割。利用类似原理可以证明，对于任意一个 $X$ 的可能值的集合 $S$ ，下式成立： $\in S)=\sum_{x \in S}p_X(x).$
随机变量 $X$ 的分布列的计算：
对每一个随机变量 $X$ 的值 $x$ ：
- （1）找出与事件 $\lbrace{X=x}\rbrace$ 相对应的所有试验结果；
- （2）将相应的试验结果的概率相加得到 $p_X(x).$

伯努利随机变量

考虑抛掷一枚硬币。设正面向上的概率为 $p$ ，反面向上的概率为 $1 - p$ .伯努利随机变量在试验结果为正面向上时取值为1，在试验结果为反面向上时取值为0，即 $X=\bigg\lbrace_{0,若反面向上}^{1,若正面向上}$
伯努利（Bernoulli）随机变量的分布列为 $p_X(k)=\bigg\lbrace_{1-p,若k=0}^{p,若k=1}$
在实际中，伯努利随机变量用于刻画具有两个试验结果的概率模型。

二项随机变量

将一枚硬币抛掷 $n$ 次，每次抛掷，正面出现的概率为 $p$ ，反面出现的概率为 $1 - p$ ，而且各次抛掷是相互独立的。令 $X$ 为 $n$ 次抛掷得到正面的次数。我们称 $X$ 为二项随机变量，其参数为 $n$ 和 $p$ . $X$ 的分布列是： $p_X(k)=P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},k=0,1,\cdots,n.$ 对于二项随机变量，利用归一化公理可以得到： $\sum_{k=0}^n\binom{n}{k}p^k(1-p)^{n-k}=1.$

几何随机变量

在连续抛掷硬币的试验中，每次抛掷，正面出现的概率为 $p$ ，反面出现的概率为 $1 - p$ ，而且各次抛掷是相互独立的。令 $X$ 为连续抛掷一枚硬币，直到第一次（第 $k$ 次）出现正面所需要抛掷的次数。 $X$ 就称为几何随机变量。前 $k - 1$ 次抛掷的结果为反面向上，第 $k$ 次抛掷的结果为正面向上的概率为 $1-p)^{k-1}p.$ 因此， $X$ 的分布列为： $p_X(k)=(1-p)^{k-1}p,k=1,2,\cdots.$ 归一化为： $\sum_{k=1}^\infty p_X(k)=\sum_{k=1}^\infty (1-p)^{k-1}p=p\sum_{k=0}^\infty (1-p)^k=p \frac {1}{1-(1-p)}=1.$

泊松随机变量

设随机变量 $X$ 分布列为 $p_X(k)=e^{-\lambda}\frac {\lambda ^k}{k!},k=0,1,2,\cdots.$ 其中 $\lambda$ 是刻画分布列的取正值的参数，则称 $X$ 为泊松随机变量。
归一化为： $\sum_{k=0}^\infty e^{-\lambda}\frac {\lambda ^k}{k!}=e^{-\lambda}(1+\lambda+\frac {\lambda^2}{2!}+\cdots)=e^{-\lambda}e^{\lambda}=1.$
泊松随机变量适合用于 $n$ 很大， $p$ 很小的情况。类似于试验次数很多，但是正面向上的概率很小的情况。
当 $\lambda≤1$ 时，分布列单调递减；当 $\lambda>1$ 时，分布列随着 $k$ 的递增，先递增后递减。
泊松随机变量逼近二项随机变量： $e^{-\lambda}\frac {\lambda ^k}{k!} \approx \frac{n!}{k!(n-k)!}p^k(1-p)^{n-k},k=0,1,2,\cdots,n.$ 其中 $\lambda=np$ ， $n$ 很大， $p$ 很小。

随机变量的函数

设 $X$ 是一个随机变量。对 $X$ 施行不同的变换，可以得到其它的随机变量。
设 $Y = g (X)$ 是随机变量 $X$ 的函数，由于对每一个试验结果，也对应一个（ $Y$ 的）数值，故 $Y$ 本身也是一个随机变量。
如果 $X$ 是离散的随机变量，其对应的分布列为 $p_X(x)$ ，则 $Y$ 也是离散随机变量，其分布列可通过 $X$ 的分布列进行计算。实际上，对固定的 $y$ 值， $p_Y(y)$ 的值可以通过下式计算： $p_Y(y)=\sum_{\lbrace{x|g(x)=y}\rbrace}p_X(x).$

期望、均值和方差

期望：
设随机变量 $X$ 的分布列为 $p_X$ . $X$ 的期望值（也称期望或均值）由下式给出： $E[X]=\sum_x xp_X(x).$

方差、矩和随机变量的函数的期望规则

随机变量 $X^2$ 的均值(即 $E[X^2]$ )，称为随机变量 $X$ 的二阶矩。
$n$ 阶矩 $E[X^n]$ 定义为 $X^n$ 的期望值。均值本身刚好是一阶矩。
方差：
记作 $v a r (X)$ ： $var(X)=E[(X-E[X])^2]=\sum_x(x-E[X])^2p_X(x).$ 方差只能是非负值，提供了 $X$ 在期望周围分散程度的一个测度。分散程度的另一个测度是标准差。
标准差：
$\sigma_X=\sqrt {var(X)}.$ 标准差具有实用性，因为它的量纲与 $X$ 相同。
随机变量的函数的期望规则：
设随机变量 $X$ 的分布列为 $p_X$ ，又设 $g (X)$ 是 $X$ 的一个函数，则 $g (X)$ 的期望由下列公式得到 $E[g(X)]=\sum_x g(x)p_X(x).$
计算 $X$ 的 $n$ 阶矩：
$E[X^n]=\sum_x x^np_X(x).$

均值和方差的性质

随机变量的线性函数的均值和方差：
设 $X$ 为随机变量，令 $Y = a X + b,$ 其中， $a$ 和 $b$ 为给定的常数，则 $E[Y]=aE[X]+b,var(Y)=a^2var(X).$
用矩表达的方差公式：
$var(X)=E[X^2]-(E[X])^2.$
陷阱： 除非 $g (X)$ 是一个线性函数，一般情况下， $E [g (X)] \neq = g (E [X])$

某些常用的随机变量的均值和方差

伯努利随机变量的均值和方差：
- 伯努利随机变量的分布列为： $p_X(k)=\bigg\lbrace_{1-p,若k=0}^{p,若k=1}$
- 下面给出其均值、二阶矩、方差的计算公式： $E[X]=1\cdot p+0\cdot (1-p)=p;$ $E[X^2]=1^2\cdot p+0^2\cdot (1-p)=p;$ $var(X)=E[X^2]-(E[X])^2=p-p^2=p(1-p).$
离散均匀随机变量的均值和方差：
- 离散均匀随机变量的分布列为： $p_X(k)=\bigg\lbrace_{0,其它}^{\frac {1}{b-a+1},若k=a,a+1,\cdots,b}$ 其中， $a, b$ 是两个整数，作为随机变量的值域的两个端点。其分布列相对于 $\frac {a+b}{2}$ 是对称的。
- 下面是其均值、方差的计算公式： $E[X]=\frac {a+b}{2},$ $var(X)=\frac {(b-1)(b-a+2)}{12}$
泊松随机变量的均值和方差：
- 泊松随机变量的分布列为： $p_X(k)=e^{-\lambda}\frac {\lambda ^k}{k!},k=0,1,2,\cdots.$
- 下面是其均值、方差的计算公式： $E[X]=\lambda,$ $var(X)=\lambda$

利用期望值进行决策

如果把期望回报看成一个处理方案长期重复执行的平均回报，则选择具有最大期望的回报。

多个随机变量的联合分布列

设在同一个试验中，由两个随机变量 $X$ 和 $Y$ ，它们的取值概率可以用它们的联合分布列刻画，并且用 $p_{X,Y}$ 表示。设 $(x, y)$ 是 $X$ 和 $Y$ 的可能取值， $(x, y)$ 的概率质量定义为事件 $\lbrace{X=x,Y=y}\rbrace$ 的概率： $p_{X,Y}=P(X=x,Y=y).$
利用联合分布列可以确定任何由随机变量 $X$ 和 $Y$ 所刻画的事件的概率，例如 $A$ 是某些 $(x, y)$ 所形成的集合，则 $P((X,Y)\in A)=\sum_{(x,y)\in A}p_{X,Y}(x,y).$
利用 $X$ 和 $Y$ 的联合分布列计算 $X$ 或 $Y$ 的分布列： $p_X(x)=\sum_y p_{X,Y}(x,y),p_Y(y)\sum_x p_{X,Y}(x,y).$ 称 $p_X(x)$ 或 $p_Y(y)$ 为边缘分布列。

多个随机变量的函数

从二元函数 $Z = g (X, Y)$ 可以确定一个新的随机变量。这个新的随机变量的分布列可以从联合分布列通过下式计算： $p_Z(z)=\sum_{\lbrace{(x,y)|g(x,y)=z}\rbrace}p_{X,Y}(x,y).$ 进一步地，关于随机变量的函数的期望规则可以推广成下列形式 $E[g(X,Y)]=\sum_x\sum_yg(x,y)p_{X,Y}(x,y).$ 特别地，当 $g$ 是形如 $a X + b Y + c$ 的线性函数的时候，我们有 $E [a X + b Y + c] = a E [X] + b E [Y] + c,$ 其中 $a, b, c$ 均为给定的常数。

多于两个随机变量的情况

设有三个随机变量 $X, Y, Z$ ，其联合分布列的定义是类似的，即： $p_{X,Y,Z}(x,y,z)=P(X=x,Y=y,Z=z),$ 其中 $(x, y, z)$ 是 $(X, Y, Z)$ 的所有可能的取值。相应地，可以得到边缘分布， $p_{X,Y}(x,y)=\sum_zp_{X,Y,Z}(x,y,z),$ $p_X(x)=\sum_y\sum_zp_{X,Y,Z}(x,y,z).$ 关于随机变量的函数的期望规则为 $E[g(X,Y,Z)]=\sum_x\sum_y\sum_zg(x,y,z)p_{X,Y,Z}(x,y,z),$ 并且，如果 $g$ 是形如 $a X + b Y + c Z + d$ 线性函数，则 $E [a X + b Y + c Z + d] = a E [X] + b E [Y] + c E [Z] + d,$ 进一步，推广到 $n$ 个随机变量的情况： $E[a_1X_1+a_2X_2+\cdots+a_nX_n]=a_1E[X_1]+a_2E[X_2]+\cdots+a_nE[X_n]$

条件

某个事件发生的条件下的随机变量

在某个事件 $A (P (A) > 0)$ 发生的条件下，随机变量 $X$ 的条件分布列由下式给定： $p_{X|A}(x)=P(X=x|A)=\frac {P(\lbrace{X=x}\rbrace\cap A)}{P(A)}.$
条件分布列的计算是，将满足 $X = x$ 并且属于 $A$ 的试验结果的概率相加，最后除以 $P (A)$ ，便得到 $p_{X|A}(x)$ 的值。

给定另一个随机变量的值的条件下的随机变量

设某一个试验中有两个随机变量 $X$ 和 $Y$ 。我们假定随机变量 $Y$ 已经取定一个值 $y(p_Y(y)>0)$ ，这个 $y$ 值提供了关于 $X$ 取值的部分信息。这些信息包含于 $X$ 的给定 $Y$ 的值的条件分布列 $p_{X|Y}$ 中。所谓条件分布列就是 $p_{X|A}$ ，其中事件A就是事件 $\lbrace{Y=y}\rbrace$ ： $p_{X|Y}(x|y)=P(X=x|Y=y).$ 利用条件概率的定义，我们有 $p_{X|Y}(x|y)=\frac {P(X=x,Y=y)}{P(Y=y)}=\frac {p_{X,Y}(x,y)}{p_Y(y)}.$

条件期望（全期望定理）

设 $X$ 和 $Y$ 为某一试验中的两个随机变量。

设 $A$ 为某事件， $P (A) > 0$ ，随机变量 $X$ 在给定 $A$ 发生的条件下的条件期望为 $E[X|A]=\sum_xxp_{X|A}(x).$ 对于函数 $g (X)$ ，我们有 $E[g(X)|A]=\sum_xg(x)p_{X|A}(x).$
给定 $Y = y$ 的条件下 $X$ 的条件期望由下式定义 $E[X|Y=y]=\sum_xxp_{X|Y}(x|y).$
设 $A_1,\cdots,A_n$ 是互不相容的事件并且形成样本空间的一个分割，假定 $P(A_i)>0$ 对一切 $i$ 成立，则 $E[X]=\sum_{i=1}^nP(A_i)E[X|A_i].$ 进一步假定事件 $B$ 满足对一切 $i$ ， $P(A_i \cap B)>0$ ，则 $E[X|B]=\sum_{i=1}^nP(A_i|B)E[X|A_i \cap B].$
我们有 $E[X]=\sum_yp_Y(y)E[X|Y=y].$

独立性

随机变量与事件的相互独立性

随机变量与事件的独立性的概念与两个事件的相互独立性的概念是相同的。
基本思想是：刻画条件的事件的发生与否不会对随机变量取值提供新的信息。
随机变量 $X 独立于事件 A$ 是指 $P(X=x且A)=P(X=x)P(A)=p_X(x)P(A)对一切x成立,$ 这个条件等价于：对任何 $x$ ，随机事件 $\lbrace{X=x}\rbrace$ 与事件 $A$ 相互独立。由条件分布列的定义， $P(X=x且A)=p_{X|A}(x)P(A),$ 所以，只要 $P (A) > 0$ ，随机变量 $X$ 与事件 $A$ 的独立性与下面的条件是等价的： $p_{X|A}(x)=p_X(x)对一切x成立.$

随机变量之间的相互独立性

随机变量之间的相互独立性与随机变量和随机事件的相互独立性的概念是完全相同的。
随机变量 $X$ 和 $Y$ 称为相互独立的随机变量，若它们满足 $p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切x和y成立.$ 这个条件等价于对任何 $x$ ，随机事件 $X = x$ 和 $Y = y$ 相互独立。
最后，由公式 $p_{X,Y}(x,y)=p_{X|Y}(x,y)p_Y(y)$ 可知随机变量 $X$ 和 $Y$ 的相互独立性的条件等价于 $p_{X|Y}(x|y)=p_X(x)对一切x和一切满足p_Y(y)>0的y成立.$ 直观上， $Y$ 和 $X$ 的独立性意味着 $Y$ 的取值不会提供 $X$ 的取值。
关于独立随机变量的性质的小结：
设在某一试验中， $A$ 是一个事件，满足条件 $P (A) > 0$ ，又设 $X$ 和 $Y$ 是在同一个试验中的两个随机变量.
- 称 $X$ 为相对于事件 $A$ 独立，如果满足 $p_{X|A}(x)=p_X(x)对一切x成立，$ 即对一切 $x$ ，事件 $\lbrace{X=x}\rbrace$ 与 $A$ 相互独立.
- 称 $X$ 和 $Y$ 为相互独立的随机变量，如果对一切可能的数对 $(x, y)$ ，事件 $\lbrace{X=x}\rbrace$ 和 $\lbrace{Y=y}\rbrace$ 相互独立，或等价地 $p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切x和y成立.$
- 若 $X$ 和 $Y$ 相互独立，则 $E [X Y] = E [X] E [Y] .$ 进一步地，对于任意函数 $g$ 和 $h$ ，随机事件 $g (X)$ 和 $h (Y)$ 也是相互独立的，并且 $E [g (X) h (Y)] = E [g (X)] E [h (Y)] .$
- 若 $X$ 和 $Y$ 相互独立，则 $v a r (X + Y) = v a r (X) + v a r (Y) .$

几个随机变量的相互独立性

我们称随机变量 $X, Y, Z$ 是三个相互独立的随机变量，如果它们满足 $p_{X,Y,Z}(x,y,z)=p_X(x)p_Y(y)p_Z(z)对一切x,y,z成立.$
设 $X, Y, Z$ 是三个相互独立的随机变量，则任何形如 $f (X), g (Y), h (Z)$ 的三个随机变量也是相互独立的。
任何两个随机变量 $g (X, Y), h (Z)$ 也是相互独立的，但是形如 $g (X, Y), h (Y, Z)$ 的两个随机变量通常不是相互独立的，因它们受公共的随机变量 $Y$ 的影响。

若干个相互独立的随机变量的和的方差

设 $X_1,\cdots,X_n$ 为相互独立的随机变量序列，则 $var(X_1+\cdots+X_n)=var(X_1)+\cdots +var(X_n).$

哎呦哥哥、

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
概率导论（二）——离散随机变量

参考书：《概率导论》，作者：Dimitri P. Bertsekas，John N. Tsitsiklis。本系列博客为自学《概率导论》笔记。思维导图基本概念分布列伯努利随机变量二项随机变量几何随机变量泊松随机变量随机变量的函数期望、均值和方差方差、矩和随机变量的函数的期望规则均值和方差的性质某些常用的随机变量的均值和方差利用期望值进行决策多个随机变量的联合分布列多个随机变量的函数多于两个随机变量的情况条件某个事件发生的条件下的随机变量给定另一个随机变量的值的条.
复制链接

扫一扫