【个人学习笔记】概率论与数理统计知识梳理【四】

最新推荐文章于 2022-02-23 22:32:00 发布

已经是全速前进了

最新推荐文章于 2022-02-23 22:32:00 发布

阅读量2.1k

点赞数 4

文章标签：概率论

本文链接：https://blog.csdn.net/liuyider/article/details/108928934

版权

前言

学完了随机变量的分布、概率密度，其实就已经对这个随机变量基本上把握了。但是在实际应用中，比起知道每个事件发生的概率，我们更关系这个随机变量一般性的取值是什么，也就是接下来要讲的期望；此外我们还可能关心这个随机变量在随机取值的时候，变化的是否剧烈，这也就涉及要讲的方差。这些概念在高中其实已经学过了，包括统计中也有期望（均值）和方差的概念，所以现在再讲它们理解起来应该是毫不费力。

一、数学期望

1.1概念理解

当我们要对一个随机变量有一个整体的认识的时候，常常会用到数学期望这个概念。例如抛一次骰子，我想知道他期望值是多少的意思，就是我抛足够多次，得到的点数的平均值。

书上的定义是直接基于概率分布的前提给出期望计算式得到的，我不是很喜欢这种结果导向的定义，这里我给出自己的理解：

将随机试验进行足够多次，对结果求平均，得到的平均值就是该随机变量的期望。

由这个定义很容易推导出它的计算式：

记随机变量 $X$ 的期望为 $E (X)$ ，由所给定义有：
$E(X)=\sum_{i}x_i\frac{n_i}{n}$
其中 $n$ 为试验进行次数， $n_i$ 为 $X=x_i$ 的次数，由频率的稳定性得
$E(X)=\sum_{i}x_i\frac{n_i}{n}=\sum_{i}x_iP(X=x_i)$
当 $X$ 为连续型随机变量时，求和变为积分， $P(X=x_i)=f(x_i)dx$ ,
于是有 $E(X)=\sum_{i}x_iP(X=x_i)=\int_{-\infty}^{\infty}xf(x)dx$

1.2 性质推导

现在我们知道了求期望本质就是求均值，那么对常数求均值必然就是常数本身。并且求均值是一个线性运算，所以求期望也是线性运算，所以它就满足线性性质：

$E(k_1X+k_2Y)=k_1E(X)+k_2E(Y)$

另外，当两个随机变量独立时，还额外具有如下性质:

$E (X Y) = E (X) + E (Y)$

简单推导一下这条性质：

$E(XY)=\iint_S xyf(x,y)ds=\int_{-\infty}^{\infty}xf(x)dx\int_{-\infty}^{\infty}yf(y)dy=E(X)E(Y)$

这个性质在以后会很有用，在讲到协方差的时候会知道，独立的条件其实是过强了，并不需要这么强的条件就能得到这条很好用的性质了。

二、方差

2.1概念理解

统计中的方差是怎么计算的应该还没忘记吧，先求出均值，再用每个值减去均值得到偏差，再对偏差的平方求均值。从定义中就可以看出方差的目的是为了表征统计量相对于平均值的偏差程度，这种偏差是不计较正负的。为什么不直接对偏差求均值还要加平方呢？因为正负偏差会抵消，这会导致最终得到的结果必然为0。

随机变量的方差的计算方法完全一样，我们有了数学期望，也就能先计算出均值了，再用个随机变量的取值减去均值得到偏差就可以计算方差了，下面直接给出公式：

记随机变量 $X$ 的方差为 $D (X)$ ,则有
$D(X)=E([X-E(X)]^2)$
通过刚刚掌握的期望的性质，我们可以进一步化简
$D(X)=EX^2-2(EX)^2+(EX)^2=EX^2-(EX)^2$

也就是说，随机变量 $X$ 的方差就是 $X^2$ 的均值减去 $X$ 均值的平方的差。

2.2性质推导

1.首先常数的方差为0，这是很容易看出来的，通过期望的性质。

2. $D(CX)=E(CX)^2-C^2(EX)^2=C^2EX^2-C^2(EX)^2=C^2D(X)，D(C+X)=E(X+C-EX-EC)^2=E(X-EX)^2=D(X)$

3. $D(X+Y)=E(X+Y)^2-(EX+EY)^2=EX^2-(EX)^2+EY^2-(EY)^2+2E(XY)-2EXEY=D(X)+D(Y)+2E(XY)-EXEY$
如果 $X 、 Y$ 互相独立，则通过期望的性质有
$D (X + Y) = D (X) + D (Y)$

4. $D (X) = 0$ 的充要条件为X为常数（以概率1取E(X)）

充分性由1已经可以得到，下面分析一下它的必要性。
假设 $X$ 不为常数，则存在 $x_i$ 使得 $P(X=x_i)\neq0$ 且 $x_i\neq EX$ ,则 $x_i-EX)^2P(X=x_i)>0$ ,令 $\mu=EX$ ,
$D(X)=(x_i-\mu)^2P(X=x_i)+E_{k\neq i}(X_k-\mu)^2 \geqslant (x_i-\mu)^2P(X=x_i)>0$ 说明原假设不成立， $X$ 必须为常数。

2.3 切比雪夫不等式

切比雪夫不等式提供了一种在概率分布未知而其数字特征已知的情况下，计算事件概率上界的方法。
定理：

设随机变量 $X$ 的数学期望为 $EX=\mu$ ,方差为 $DX=\sigma^2$ ,则对于任意正数 $\varepsilon$ ,有不等式：
$P(\left |X-\mu \right |\geqslant \varepsilon)\leqslant \sigma^2/\varepsilon^2$
成立，该不等式称为切比雪夫不等式。

证明：
（以连续型随机变量为例进行证明，离散情况可以类比）

$P(\left |X-\mu \right |\geqslant \varepsilon)=\int_{\left |x-\mu \right |\geqslant \varepsilon}f(x)dx\leqslant \int_{\left |x-\mu \right |\geqslant \varepsilon}\frac{\left |x-\mu \right |^2}{\varepsilon^2}f(x)dx\leqslant \int_{-\infty}^{\infty}\frac{\left |x-\mu \right |^2}{\varepsilon^2}f(x)dx=\sigma^2/\varepsilon^2$

给定 $\varepsilon$ ，就可以计算出事件集合（区间)，也可以通过切比雪夫不等式计算出该事件发生概率的上界。

三、常见分布的数字特征

学以致用，学完了数字特征，该将它们用到我们之前学过的常见的概率分布中去了。

3.1离散型

3.1.1二项分布

概率分布：

$X\sim B(n,p)$
$P(X=m)=C_{n}^{m}p^{m}q^{n-m}$

期望：

直接通过计算式求未免太过费力，可以先计算 $n = 1$ 的情况，
很容易得出 $E X = p$ ，也就是说进行一次试验的均值为p,那么进行n次试验，由于每次的试验是相互独立的，则每次试验的均值都是p。那么n次试验的均值就是 $E(X_1+X_2+...X_n)=np$

方差：

方差也是用同样的思路，当 $n = 1$ 时， $D X = p q$ ,那么二项分布的方差为 $D(X_1+X_2+...X_n)=npq$

3.1.2 泊松分布

概率分布：

$X\sim P(\lambda)$
$P(X=k)=\frac{\lambda ^{k}e^{-\lambda }}{k!}, k=0.1.2...$

期望：

$EX=\sum_{k=0}^{n}k\frac{\lambda ^{k}e^{-\lambda }}{k!}=\sum_{k=1}^{n}\lambda\frac{\lambda ^{k-1}e^{-\lambda }}{(k-1)!}=\lambda\sum_{k=0}^{n}\frac{\lambda ^{k-1}e^{-\lambda }}{(k)!}=\lambda$
服从参数为 $\lambda$ 的泊松分布的期望就是 $\lambda$ ，这也对应了它的意义，单位时间内事件发生的次数，这其实就是一段时间内事件发生的平均次数。

方差：

$EX^2=\sum_{k=0}^{n}k^2\frac{\lambda ^{k}e^{-\lambda }}{k!}=\sum_{k=1}^{n}(k-1+1 )\lambda\frac{\lambda ^{k-1}e^{-\lambda }}{(k-1)!}=\lambda(EX+1)=\lambda^2+\lambda$
$DX=EX^2-(EX)^2=\lambda$

这实在很有意思，泊松分布的方差也是 $\lambda$ 。

3.2 连续型

3.2.1 均匀分布

概率密度：

$X\sim U(a,b)$
$f (x) = 1 / (b - a)$

期望：
均匀分布是在定义区间上等概率的取值，那么它的均值可能就是区间的中点了，通过计算发现的确如此。

$EX=\int_a^b\frac{x}{b-a}dx=\frac{a+b}{2}$

方差：

$DX=EX^2-(EX)^2=\int_a^b\frac{x^2}{b-a}dx-\frac{(a+b)^2}{4}=\frac{(b-a)^2}{12}$

这个结果可以记下来，会比较常用。

3.2.2 指数分布

概率密度：

$X\sim E(\lambda)$
$f(x)={\lambda e^{-\lambda x}}$

期望：
可以先猜想一下， $\lambda$ 是单位时间内事件发生的次数,那么事件发生的平均间隔时间应该就是它的倒数 $1/\lambda$ ，有理有据，令人信服。23333

$EX=\int_{0}^{\infty}\lambda xe^{-\lambda x}dx=1/\lambda\int_{0}^{\infty}te^{-t}dt=-\frac{(t+1)e^-t}{\lambda}\mid^\infty_0=1/\lambda$

和猜想的一致，这下记忆起来就更方便了。

方差：

$EX^2=\int_{0}^{\infty}\lambda x^2e^{-\lambda x}dx=\frac{\int_0^{\infty}t^2e^-tdt}{\lambda^2}$
分子 $=-(t^2+2t+2)e^{-t}\mid_0^\infty=2$
$DX=2/\lambda^2-1/\lambda^2=1/\lambda^2$

这个结果也是非常的好记了

3.2.3 正态分布

概率密度：

$X\sim N(\mu,\sigma^2)$
$f(x)=\frac{1}{\sqrt {2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

从它的参数的符号应该就能猜到， $\mu$ 就是均值， $\sigma^2$ 就是方差，下面我们来计算一下。
期望：

$EX=\int_{-\infty}^{\infty}\frac{x}{\sqrt {2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{t+\mu}{\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}}dt=\int_{-\infty}^{\infty}\frac{1}{2\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}}dt^2+\mu=\frac{-\sigma^2}{\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}} \mid_{-\infty}^{\infty}+\mu=\mu$

方差：

$EX^2=\int_{-\infty}^{\infty}\frac{x^2}{\sqrt {2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{(t+\mu)^2}{\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}}dt=\int_{-\infty}^{\infty}\frac{t^2+2\mu t+\mu^2}{\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}}dt=\int_{-\infty}^{\infty}\frac{t^2}{\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}}dt+0+\mu^2$
$\therefore DX=\int_{-\infty}^{\infty}\frac{t^2}{\sqrt {2\pi\sigma^2}}e^{-\frac{t^2}{2\sigma^2}}dt=\int_{-\infty}^{\infty}\frac{{2\sigma^2}t^2}{\sqrt {\pi}}e^{-{t^2}}dt=\frac{2\sigma^2}{\sqrt \pi}\int_{-\infty}^{\infty}t^2e^{-{t^2}}dt$

现在只需要求出 $I=\int_{-\infty}^{\infty}t^2e^{-{t^2}}dt$ 即可，
可以参考证明状正态分布规范性的方法，采用极坐标法：
$I^2=\iint (xy)^2e^{-(x^2+y^2)}dxdy=\frac18\iint\rho^5sin^22\theta e^{-\rho^2}d\rho d\theta=\int_0^{\infty}\int_0^{2\pi}\rho^5(1-cos4\theta) e^{-\rho^2}d\theta d\rho=\frac\pi4\int_0^{\infty}\rho^5e^{-\rho^2}d\rho=\frac\pi8\int_0^{\infty}\rho^2e^{-\rho}d\rho=-\frac\pi8(\rho^2+2\rho+2)e^{-\rho}\mid_0^\infty=\frac\pi4$
$\therefore I=\sqrt\pi/2,DX=\sigma^2$

可见正态分布的参数 $\mu、\sigma^2$ 就是它对应的期望和方差。

四、协方差与相关系数

前面所学的期望和方差都是描述单个随机变量的关系，如果我想要去研究两个随机变量之间的关系，则需要引入一些新的数字特征。协方差与相关系数也就应运而生。

4.1定义

有两个随机变量 $X 、 Y$ ,则 $C o v (X, Y) = E [(X - E (X)) (Y - E (Y))]$ 称为它们的协方差， $\rho_{xy}=\frac{Cove(X,Y)}{\sqrt{D(X)D(Y)}}$ 称为它们的相关系数。

从协方差的定义不难看出它与方差的相似性，且有随机变量X与自身的协方差就是方差自身。方差描述了随机变量偏离均值的程度，这是通过对每个随机变量取值与均值的偏差做期望得到的，至于平方是为了不让正负偏差抵消导致结果恒为0。

4.2协方差和相关系数怎么表示相关性的：

（以下内容纯属个人发挥想象力的拙见，看看就好）
如果先抛开期望，简单的当成求算术平均去看，发现这就是两个随机变量 $X 、 Y$ 的均值偏差向量的内积，在随机变量自身的偏离程度确定的情况下，即两个均值偏差向量的模 $D^{'} (X), D^{'} (Y)$ （如果直接把期望当做均值的话，这个模其实就是统计方差）是确定的，那么它们的协方差大小将完全取决于这两个均值偏差向量的夹角，而这个夹角表示的就是它们的相似性，或者说相关性！特别地，当它们完全同分布的时候，两均值偏差向量方向一致，内积最大，也就是等于它们的方差，此时相关系数也达到最大值1。

$vec_x=(x_1-\mu_x,x_2-\mu_x...x_n-\mu_x...)$ , $vec_y=(y_1-\mu_y,y_2-\mu_y...y_n-\mu_y...)$
$vec_x\cdot vec_y=\sqrt{D'(X)}\sqrt{D'(Y)}cos\theta$

那么为什么不直接这样来定义协方差和相关系数呢，还不用计算讨厌的期望？其实问题还是很明显的，这种方法计算出来的相关性，并没有把概率分布的特性完全用上，它仅仅把随机变量所有可能的取值考虑了，并且求算术平均的方式其实就是相当于看成等可能事件，每个取值都是平等的，这显然是有很大问题的。那么这下就好理解了，怎么给不同的取值（指的是计算出来的偏差的乘积，也就是两个向量对应元素的乘积）分配不同的权重使得它对相关性的影响更合理呢？当然是按概率大小来分配，概率越大的取值分配越大的权重，因为它对相关性的影响更大。所以从每个取值的偏差的内积（内积其实就是权重都为1的加权求和）变成了按概率分布加权的求和。

至于相关系数我就不想多说了，看了上面的向量表达式也也该很容易看出来了，它就是把模除掉对协方差做了一个归一化罢了，关于它为什么处于0-1之间、以及为什么在两个随机变量满足线性相关的时候（此时的线性相关包括相差一个常数，因为随机变量加一个常数是不会影响分布特性的）取到1感兴趣的可以自己尝试证明一下。

这么分析完以后，是不是觉得期望也好、方差也好，都是定义一个计算量，然后根据概率分布求加权和，好像确实是这样233333。

顺便一提，相关系数为0的时候，称两个随机变量不相关，公式描述如下：

$E (X Y) - E (X) E (Y) = 0$

可以看到独立必然不相关，反之不成立。独立是更强的条件。

五、矩、协方差矩阵

矩就是均值方差的扩展概念，是更为抽象的表述。
定义：

设 $X 、 Y$ 为随机变量，
若 $E(X^k)$ 存在，称它为X的k阶原点矩，简称k阶矩。
若 $E\{[X-E(x)]^k\}$ 存在，称它为X的k阶中心矩。
若 $E\{X^kY^l\}$ 存在，称它为X、Y的 $k + l$ 阶混合矩。
若 $E\{[X-E(X)]^k[Y-E(Y)]^l\}$ 存在，称它为X、Y的 $k + l$ 阶混合中心矩。