【个人学习笔记】概率论与数理统计知识梳理【二】

最新推荐文章于 2023-06-06 11:32:07 发布

已经是全速前进了

最新推荐文章于 2023-06-06 11:32:07 发布

阅读量2k

点赞数 16

文章标签：概率论

本文链接：https://blog.csdn.net/liuyider/article/details/108741028

版权

本文围绕概率论中的随机变量展开，介绍了离散型和连续型随机变量及其分布。离散型包含伯努利试验、二项分布和泊松分布；连续型有均匀分布、指数分布和正态分布。还阐述了随机变量的分布函数、概率密度，以及随机变量的函数分布，有助于深入理解概率论知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

趁热打铁，继续肝，前一篇都是比较浅显的概念，没有什么特别可记录的，希望这篇可以写更多自己的东西。

一、随机变量

高一学习弧度制的时候老师问过我这样一个问题：我们都有°这个角度标准了，为什么还要引入弧度制来度量角度呢？

因为°不是数，数学总的来说还是玩“数”的学问，通过弧度制，角度终于和实数对应上了，这下好办了，函数啊，运算啊，就都可以招呼上了。所以弧度制实际上可以看成是从角度到实数的一种映射，为的是更好地去处理角度。

没错，引入随机变量也是出于这个目的，随机变量的引入就是建立了样本空间到实数空间的一个映射。有了随机变量，我们最爱的函数这一工具终于也可以派上用场了，什么概率分布函数概率密度函数分分钟安排上。

最后给出参考用书的定义：

设随机试验的样本空间 $S=\left \{ e \right \}$ , $X = X (e)$ 是定义在样本空间S上的实值单值函数，称 $X = X (e)$ 为随机变量

其实说是满射会更加准确一些，因为函数是定义在数值集合与数值集合之间的映射。（本人对定义比较吹毛求疵 2333）

有了随机变量，我们再也不用通过把集合中的元素罗列来表示事件了，我们可以用数值集合的区间表示法，或者描述法（如 $\left \{ X\mid f(X)=0 \right \}$ ）来简单的表示事件了。相应求事件发生的概率也有了更简便的表示方式。

二、离散型随机变量及其分布

1、离散型随机变量的概念

离散型随机变量就是取值离散的随机变量，例如抛硬币、掷色子。关于离散的随机变量高中数学就学过其分布律，一般通过表格的形式，将随机变量的取值与对应的概率列举出来。

离散型随机变量虽然相对来说简单，但是它确实之后学习理解连续型变量的重要基础，很多连续型变量的相关知识的理解可以由离散型随机变量去推演。例如求随机变量的期望就可以从离散型随机变量的期望的求极限出发去考虑连续型的随机变量，本质上还是积分的求和定义式的应用。

2、重要的几种离散型随机变量的概率分布

2.1 伯努利试验与二项分布

只有两种试验结果的试验就叫做伯努利试验。进行多次独立重复的伯努利试验就叫做n重伯努利试验，抛硬币就是一个伯努利试验（假设我们的硬币不具备厚度，只能抛出正反面233333）。

n重伯努利试验是一个很重要的数学模型，生活中处处充满了它的影子，试想我们每天重复做过多少事情，更不用说人的本质就是复读机了！n重伯努利试验中，试验成功的次数是一个随机变量，这个随机变量服从耳熟能详的二项分布。说到二项分布是不是就想到了高中学过的二项式定理，没错他们的思想一模一样。

让我们假设每次试验的成功率为p，由于n重伯努利试验是n次独立重复的试验，所以每次试验的成功率不变且与其他试验互不影响。那么求成功m次的概率，即 $P (X = m)$ 就是从n次实验中选出m次成功，然后剩下的就失败了。（这与求二项式定理中的第m项的从n个因式中选m个左因子剩下取右因子相乘得到的思想是完全相同的。）由于每次试验是相互独立的，积事件的概率就是各个事件概率的乘积。于是 $P (X = m)$ 的概率如下：

$P(X=m)=C_{n}^{m}p^{m}q^{n-m}$

n重伯努利试验中成功的次数X为一个随机变量，它满足二项分布，记作 $X\sim B(n,p)$
特别的，当n=1时，称其为0-1分布。

2.2 泊松分布

书上给出的泊松分布是一个形式定义：

$P(X=k)=\frac{\lambda ^{k}e^{-\lambda }}{k!}, k=0.1.2...$

服从如上概率分布的就称其服从参数为 $\lambda$ 的泊松分布，记作 $X\sim P(\lambda)$

泊松分布是用于表征一段时间内某件事情发生次数这一随机变量所服从的概率分布。但是不一定是时间，其他的连续区间也是可以的，这个不进行深入讨论，我们就讨论最容易理解的“时间与次数”的情况。

服从泊松分布的随机变量需要满足一些特性，首先他代表的事件本身必须得是独立可重复的（不能重复就没有发生次数一说，独立是因为它本质上是二项分布的延伸）。我们知道n重伯努利实验中实验成功的次数满足二项分布，我们现在讨论的泊松分布的随机变量本质上也是n重伯努利试验，但是有一点点区别，那就是连续性。我们没有办法将一次次试验离散的从连续的时间连续区间上区分开，但是我们可以逼近它！

这源于微积分的朴素的思想，就算分1秒一个时间段，也可能会有多次事件发生，但是随着我们不断缩小时间段的长度，该时间段内发生的事件数就会下降，当我们把时间段压缩成无穷小量 $\Delta x$ ,就可以认为在如此小的时间段内，事件只能发生一次。（在实际应用中，由于一个事件的发生是需要一定的时间的，所以实际上我们并不需要将时间段压缩到如此小，就能建模成二项分布了，但是数学的推导与工科的不一样，不能止步于满足实际需求）如此一来，我就可以把一个在时间t内发生次数的随机变量 $X$ 转化为n次试验中成功次数的随机变量 $Y$ ，具体过程如下：

$\int_{0}^{t}dx=\lim_{n\rightarrow \infty }\sum _{i=0}^{n}\Delta x=n\Delta x$

如此t时间内事件发生的次数就转变成了n个 $\Delta x$ 事件发生的次数，下面我们通过二项分布的概率计算来推导出泊松分布的概率，来证实我们的这种思路。

$\lim_{n\rightarrow \infty }C_{n}^{k}p^{k}q^{n-k} = \lim_{n\rightarrow \infty }n!q^{n-k}p^{k}/(n-k)!k!$
$\lim_{n\rightarrow \infty }n! q^{n-k}(np)^{k}/(n-k)!k!n^k$
让我们分开求极限：
$\lim_{n\rightarrow \infty }n! /(n-k)!n^k= \lim_{n\rightarrow \infty }(1-\frac{1}{n})\cdots (1-\frac{k-1}{n})=1$
$\lim_{n\rightarrow \infty }(np)^{k}/k!$
$\lim_{n\rightarrow \infty } q^{n-k}=\lim_{n\rightarrow \infty }(1-p)^{n-k}$

此时发现结果好像出现了问题，如果p是一个属于 $(0 ， 1)$ 的常量，那么这一项的极限就是0了。怎么肥四！

哈哈哈哈，别急，我们回到前面的思路，我们虽然将泊松变量转化成了服从二项分布的随机变量，但是我们还没去讨论 $p$ 呢。试想一下，时间t内发生事件的次数的平均值（就是后面会讲到的期望,这里用平均值很好理解，n次独立重复试验，每次成功率为p，那么最终成功次数的平均值就是np）应该是 $n p$ ,但是n是趋近于无穷大的，如果p是一个属于 $(0 ， 1)$ 的常量，那么时间t内事件发生的平均次数为无数次。这显然是不合理的，这种模型是没有任何意义的，因为无法适用任何情况。

泊松分布的唯一参数 $\lambda$ 也该进入我们的视野了，这个参数并不是没有意义的，他的意义就是在时间段t内事件发生的平均次数。也就是说 $\lambda=np$ 所以我们这种用二项分布来推导泊松分布的思路中的p实际上是一个无穷小量。让我们继续之前的推导吧

$\lim_{n\rightarrow \infty }(np)^{k}/k!= \lim_{n\rightarrow \infty }\lambda^{k}/k!$
$\lim_{n\rightarrow \infty } q^{n-k}=\lim_{n\rightarrow \infty }(1-p)^{n-k}=\lim_{n\rightarrow \infty }(1-p)^{(-1/p)(pn-pk)}=e^{-\lambda+pk}=e^{-\lambda}$
将三项合并我们就可以得到：
$\lim_{n\rightarrow \infty }C_{n}^{k}p^{k}q^{n-k} =\frac{\lambda ^{k}e^{-\lambda }}{k!}$

好了，我们总算把泊松分布整清楚了，这下我们彻底明白了泊松分布是怎么来的，它的参数是代表了什么意义。因此我们也可以很容易的想到他有什么应用，比如我们可以将某种商品在一个月内的销量建模为泊松分布，只需要将每个月的销量求个平均来近似参数 $\lambda$ ,就能求出一个月销量的概率分布了。

事实上，由二项分布求泊松分布的概率表达式这个等式被称为泊松定理。

三、随机变量的分布函数

这一节要引入一个重要的定义，随机变量的分布函数。没错，我们终于要把概率与函数挂上钩了，我们的微积分已经迫不及待地要和概率论这位小兄弟交流交流了。

定义：

设 $X$ 是一个随机变量，x是任意实数，函数
$F(x)=P(X\leqslant x),-\infty<x<\infty$
称为X的概率分布函数

可以看到概率分布函数的定义域已经扩展到了整个实数域，这对于我们去讨论定义域问题来说是一个很大的便利。需要注意的是分布函数的值并不是直观的 $X = x$ 的概率，而是小于等于。概率分布函数具有两条很直观的性质：

非严格单调递增
有界性

可以看到 $F (x)$ 的定义的变量 $x$ 增大的过程是是事件不断扩大的过程，所以它的函数值只会增不会减。而当扩大到还没有纳入新的基本事件时，函数值会保持不变。有界性太简单了，分布函数定义是基于概率定义的，是概率就得满足规范性。

有了分布函数就可以将以前的分布律都转变为函数了，这个过程很简单，想一想就过了。

四、连续性随机变量与概率密度

4.1 定义

离散型的随机变量固然存在许许多多的应用，但是光有它还不够，我们生活中仍然存在很多连续变化的事物，例如我要预测某个地方温度的变化趋势，虽然它可能有很多内在的决定因素，但是我们可以用概率论的方法去建模评估它。凡是具有不确定性存在的地方，总有有概率论登场的机会。

废话不多说，看看连续型随机变量的定义吧：

如果对于随机变量X的分布函数 $F (x)$ ,存在非负可积函数 $f (x)$ ，对于任意实数 $x$ 有
$F(x)=\int_{-\infty}^{x}f(t)dt$
则称X为连续性随机变量， $f (x)$ 称为X的概率密度函数，简称概率密度。

几个要点，非负，可积，其变上限积分与分布函数具有对应关系。数学定义中，名字一般都不是乱取的，这也是数学很有意思的地方。既然叫概率密度，我们就从密度入手来分析这个定义。我们知道物理中用质量与体积的比值来表示密度，抽象一点来看，密度就是某两个量的比值定义，只不过在物理中同一个物体的密度可能一般会趋近相同。我们这里的概率密度是一个函数，所以它大部分情况下还是变化的，概率密度也是一个比值定义，他是概率与随机变量的比值。也就是 $P / X$ ,加入微分的思想，在每一个随机变量x处的密度是 $\lim_{\Delta x\rightarrow 0 }P(X\in ( x,x+\Delta x))/\Delta x$ ,容易发现这其实就是分布函数在x=X处的微分。（前提是 $f (x)$ 在X处连续）

也就是说每个极小的区间 $\Delta x$ 代表的事件发生的概率就是概率密度与区间长度的乘积，加上极限就是积分，所以定义里的右边就是求的X在 $(\infty,x]$ 的概率.

4.2 性质

同样它具有很多性质，通过上面对定义的解读，再去理解性质已经是小菜一碟了。

非负性
规范性
任意区间代表的事件发生的概率为概率密度积分
若 $f (x)$ 在x处连续,则有分布函数的导数等于概率密度。

需要指出的是，概率密度并非和分布函数一一绑定的，实际上概率密度只是一类特殊的函数罢了，满足1，2两条的函数都可以称作概率密度函数。之所以这么说是因为一定可以通过连续随型机变量的定义来构造出一个分布函数与之对应。

4.3 重要的几类连续型概率分布

4.3.1 均匀分布

定义：

形如 $f (x) = 1 / (b - a)$ , x in (a,b) else 0的概率密度称为均匀分布，记作 $X\sim U(a,b)$ 。

简单验证一下，符合概率密度的定义，确实是概率密度。（时刻对照定义进行检查，这样在遇见棘手的问题时就能明确已知和未知，不至于回去怀疑某些“已知条件”）

均匀分布是很基础很简单的一种分布，它表征的是一类不同事件发生概率相同的随机变量概率分布。虽然它很简单，但是在求解其分布函数的时候要注意区间的端点问题，数学中的任意细节都是很重要的。

4.3.2 指数分布

定义：

形如 $f(x)={\lambda e^{-\lambda x}}$ , x>0 else 0, $\lambda>0$ 的概率密度称为服从参数为 $\lambda$ 的指数分布,记作 $X\sim E(\lambda)$

指数分布与泊松分布之间存在一些联系，泊松分布针对的是一个时间段内事件发生的次数，而指数分布针对的是两次事件发生的时间间隔。因为我们有了分布函数，所以我们可以通过概率—>分布函数—>概率密度的思路去推导出一个未知分布的概率密度。要求指数分布的分布函数也就是求时间间隔大于t的概率，通过泊松分布的角度去思考这个问题，**这不就是一段时间内，事件发生的次数为0嘛！**但是需要注意的是之前的泊松分布，一直说的都是一段时间，这个时间的选取影响的是泊松分布的参数 $\lambda$ ，好了，明确了这些之后，让我们开始愉快的推导吧！

推导：

我们可以令 $\lambda$ 表示单位时间内事件发生的次数的均值，那么在t时间内事件发生次数的均值就是 $\lambda t$ ，那么在服从参数为 $\lambda$ 的指数分布的随机变量T大于t的概率就等价于服从参数为 $\lambda t$ 的泊松分布的随机变量取0的概率：

$P(k=0)=(\lambda t)^k e^{-\lambda t}/k!= e^{-\lambda t}$
$F(t)=P(T\leqslant t) =1- P(T>t)=1-e^{-\lambda t}$
${\lambda e^{-\lambda t}}$

这里重点解释一下为什么相应的泊松分布的参数是 $\lambda t$ 。因为泊松分布考察的是一段时间内事件发生次数的概率，而它的参数 $\lambda$ 是考察的那段时间内事件发生的均值，所以这个参数随着你观察的时间长短是会变的。例如你考虑一个月某件商品的销量来建立一个泊松分布和以一天的销量来建立得到的参数肯定是不一样的。我们这里考察的是t时间段内事件发生的次数，所以参数自然是t时间段内的事件发生次数均值—— $\lambda t$ 。其实细心一点可以发现t实际上是个变量，所以参数其实也在变化，这就涉及到随机过程了，其实这里的泊松分布如果把t看做变量的话，严格来说叫做泊松过程。

指数分布有一个最经典的性质，那就是无记忆性，即前一次事件的发生与后一次发生是不具备相关性的。（这也对应了泊松分布中独立重复试验的前提）既然每次事件的发生之间没有相关性，互不影响。例如我们睡懒觉，我今天没睡懒觉，我明天会睡懒觉的概率和我十天没睡懒觉我明天会睡懒觉的概率是一样的，这都取决于我今天晚上累不累，明天有没有工作，这就叫无记忆性。那什么是有记忆性呢，我十天没睡懒觉了，我今天晚上想到我那么久没睡懒觉了，我明天早上必要睡懒觉！这就是有记忆性，过去十天没睡懒觉对我明天睡不睡懒觉这一事件的发生产生了影响。

换做数学语言就是条件概率了。假设我每次睡懒觉的时间间隔T为服从参数为 $\lambda$ 的随机变量，那么我s天没睡懒觉了，我会再有t天不睡懒觉的概率为：

$P(X>t+s\mid X>s)=P(X>t+s)/P(X>s)=[1-F(t+s)]/[1-F(s)]$
$=e^{-\lambda (t+s)}/e^{-\lambda s}=e^{-\lambda t}= 1-F(t) = P(X>t)$

令t=1就是上面举的例子，不管我已经多少天没睡懒觉了，我明天会不会睡懒觉的概率都是一样的（ $P (X > 1)$ ）

4.3.3 正态分布

定义：

形如 $f(x)=\frac{e^{-(x-\mu )^2/2\sigma ^2}}{\sqrt{2\pi}\sigma },x\in R$ 的概率密度称为正态分布或高斯分布，其中 $\mu、\sigma$ 均为参数，记作 $X\sim N(\mu,\sigma^2)$ 。特别地，称 $X\sim N(0,1)$ 为标准正态分布。

高斯分布可以说是生活中处处存在了，这是一个非常重要的分布，应用十分广泛。但是现在我不打算对它深入探讨，后面到了大数定律与中心极限定理的时候再回过来讲它。这里我们先验证一下它是否满足规范性。

$\int _{-\infty}^{\infty}f(x)dx=\int _{-\infty}^{\infty}\frac{e^{-(x-\mu )^2/2\sigma ^2}}{\sqrt{2\pi}\sigma }dx = \int _{-\infty}^{\infty}\frac{e^{-x^2/2\sigma ^2}}{\sqrt{2\pi}\sigma }dx$
令 $t=x/\sqrt2\sigma$ ，则 $x=\sqrt2\sigma t$ ，原积分变为:
$I=\int _{-\infty}^{\infty}\frac{e^{-t^2}}{\sqrt{\pi}}dt$
$I^2=\int _{-\infty}^{\infty}\frac{e^{-t^2}}{\sqrt{\pi}}dt\int _{-\infty}^{\infty}\frac{e^{-t^2}}{\sqrt{\pi}}dt=\frac{1}{\pi}\int _{-\infty}^{\infty}{e^{-t^2}}dt\int _{-\infty}^{\infty}{e^{-u^2}}du$
只需要证明 $I^2=1$ 即可。
转化为极坐标，令 $t=\rho cos\theta,u=\rho sin\theta$
$I^2=\frac{1}{2\pi}\int _{0}^{\infty}\rho{e^{-\rho^2}}d\rho\int _{0}^{2\pi}{1}d\theta=1$

性质：
1、正态分布的概率密度图像关于 $x=\mu$ 对称。
2、 $x=\mu$ 为正态分布的最大值点。
3、 $\sigma$ 越大，图像越平缓。

正态分布图片
图片来自于：https://blog.csdn.net/hhaowang/article/details/83898881

第一、二条性质很容易验证，因为 $(x-\mu)^2$ 关于 $x=\mu$ 对称，且其最小值点为 $x=\mu$ ，外函数是单调增函数，所以最大值点就是 $x=\mu$ 。第三条性质，通过观察正态分布的指数部分可以发现， $\sigma$ 其实是对 $(x-\mu)^2$ 进行了尺度的缩小，当 $\sigma$ 越大时，缩小的越厉害，想要变化相同的函数值就需要更大的自变量变化值，也就是函数值随着自变量变化的速度变缓了，所以图像越平缓。

后面学习了方差和期望以后，就可以从另外的角度来解释它的性质了，其实这里的 $\mu、\sigma^2$ 就是对应的期望和方差。

五、随机变量的函数分布

在现实应用中，我们往往不止是关注随机变量本身，可能还会关注由随机变量所影响的一些东西，也就是将随机变量作为变量的函数。例如最简单的抛硬币，如果加上结果到输赢钱的映射，它就变成了一个随机变量的函数分布。

既然是随机变量的函数分布，那它的概率密度必然和随机变量自身的概率密度有关系。下面我们通过先给结论，再证明，最后去理解的方式来讨论它们之间的关系。

定理：

设随机变量X具有概率密度 $f_X(x),-\infty<x<\infty$ ,又设函数 $g (x)$ 处处可导且恒有严格单调，则 $Y = g (X)$ 是连续型随机变量，其概率密度为：
$f_Y(y)=f_X(h(y))\left|h'(y)\right|,y\in[g_{min}(x),g_{max}(x)],h(y)$ 为 $g (x)$ 反函数。

证明：

不妨令 $g^{'} (x) > 0$ ，因为严格单调，所以存在 $h (y) = h (g (x)) = x$ 为其反函数。通过概率分布函数的定义入手去进行推导：
$F_Y(y)=P(Y\leqslant y)=P(g(X)\leqslant y)$
因为 $g (x)$ 单调递增，所以有
$=P(X\leqslant h(y))=F_X(h(y))$
这下我们得到了分布函数，求个导就可以得到概率密度了，注意是对y求导
$f_Y(y)=f_X(h(y))h'(y)$
这样我们就证明了严格单调增的情况，为什么没有加绝对值呢，因为 $h^{'} (y) = 1 / g^{'} (x)$ 恒大于零，所以是一样的。而单调减时，因为是 $1-F_X(h(y))$ ,此时负号加到 $h^{'} (y)$ 上也就变成绝对值了。这也是为什么表达式中有个绝对值。

现在证明完了，要怎么更好地记住它理解它呢？我们回去看看 $f_Y(y)$ 的形式，是不是恨不得加个dy上去? 哈哈哈，如果我们同样考虑单调增的情况，dy之后看看会变成什么。

如果我们考察Y=y=g(x)这个点邻域代表的事件发生的概率,就可以得到下面的等式：

$f_X(h(y))h'(y)dy=f_X(h(y))dh(y)=f_X(x)dx$

分析：因为 $g (x)$ 具有单调性，这意味着 $x$ 与 $y$ 之间是一一对映的，所以求y邻域的概率等价于求对应的 $x = h (y)$ 的邻域的概率(可以通过离散情况帮助想象，想象数学，best数学 hhhhh）。

这个函数分布有什么用呢，开头也说了，首先实际上碰见的很多随机变量并不是我们直接需要的，我们需要的是通过它们计算出来的一些有意义的函数值。另一方面，这也提供了我们求概率密度的另一个思路，如果一个随机变量的分布很难求，而他的函数分布很容易得到，就可以通过这种方式去求。但是要注意他们之间的函数关系要严格单调!!当然我们知道，不是绝对的单调，而是在定义域内单调，要视具体情况灵活变通。

总结

困了，剩下一点明天再写吧。想把自己思考的东西转化为文字确实不是一件轻松的事情啊！！2020.09.23 （码字真的好累敲公式更累!!!不过自己整理了一遍之后确实很多原本本科学习的时候没去深究的细节也都弄清楚了，还是没有白费力气的。）虽然没什么人看但是要是有发现什么问题错误的希望可以指正鸭，谢谢！！2020.09.24