概率与统计之三

君之微

已于 2022-04-21 23:42:56 修改

阅读量123

点赞数

分类专栏：概率论文章标签：概率论机器学习人工智能

于 2022-03-06 12:32:36 首次发布

本文链接：https://blog.csdn.net/m0_58377977/article/details/122870220

版权

概率论专栏收录该内容

10 篇文章 1 订阅

订阅专栏

$\color{green}\Large\textbf{概率与统计之三}$
文章为一些读书笔记，原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著，案例讲解和讲述证明是本书的一大特点，教给人们的不只是一些概率论的概念和公式，而是思考问题的思维方式和策略。不过就是书里的错印有点多，需要边看边改。
_(:з」∠)

文章目录

一. 矩

一. 矩

1. 分布的数字特征

$\begin{aligned} 均值:&是一个衡量中心趋势的指标\\ 中位数:&如果P(X\leq c)\geq\frac{1}{2}和P(X\geq c)\geq\frac{1}{2}同时成立，那么称c是随机变量的中位数\\ 众数:&对于一个随机变量X，如果存在c使得 \begin{cases} c处的概率质量函数值最大\,(X为离散型随机变量)\\ c处的概率密度函数值最大\,(X为连续型随机变量)\\ \end{cases} 则称c是X的众数\\ 样本中位数：&就是将样本中的数由小到大进行排列后，处于数列中间的那个数，如果样本中的数据个数为偶数，那就是中间两个数的平均值，如果数据个数为奇数，那正好是中间那个数\\ 样本众数：&样本众数很好理解，就是样本中出现次数最多的那个数 \end{aligned}$
可以看到

直观上来讲，中位数的实际意义就是平分概率密度函数或概率质量函数的曲线图，使得任意一个随机变量落在该点左右两边的概率相等
这在连续型随机变量中一定会实现，即 $P(X\geq c)=P(X\leq c)=\frac{1}{2}$ ，但在离散型随机变量中，这有可能不会实现，
比如有一组 $10$ 个球，上面标有数值，分别为 $1, 2, 3, 4, 5, 5, 5, 6, 7, 9$ ，中位数为 $5$ ，随机抓取的小球的数值不大于 $5$ 的概率为 $\frac{7}{10}>\frac{1}{2}$ ,不小于 $5$ 的概率为 $\frac{6}{10}=\frac{3}{5}>\frac{1}{2}$
一个分布中可以有多个中位数和多个众数

设 $X$ 是均值为 $\mu$ 的随机变量，即 $E(X)=\mu$ ， $m$ 是 $X$ 的中为位数

当 $c=\mu$ 时，均方误差 $E((X-c)^2)$ 达到最小值
当 $c = m$ 时，平均绝对误差 $E (∣ X - c ∣)$ 达到最小值

关于第一条的证明很容易利用方差求值公式即可
$\begin{aligned} Var(X)=Var(X-c)=E((X-c)^2)&-(E(X-c))^2=E((X-c)^2)-(\mu-c)^2\\ &\LARGE\Downarrow\\ E((X-c)^2)&=Var(X)+(\mu-c)^2\\ \end{aligned}\\ 将Var(X)看做常数，则E((X-c)^2)的最小与否仅与(\mu-c)^2有关，而(\mu-c)^2不可能为负数，\\ 所以只能取零值时E((X-c)^2)的值才会最小，所以c = \mu$

2. 矩的解释

对于矩的理解
$\boxed{ \begin{aligned} &可以将矩看作是一种计算规则，或者是一个函数E(g(X))\\ &\begin{cases} 离散型随机变量 & E(g(X))=\displaystyle\sum_{j=1}^\infty g(x_j)P(X=x_j) &P(X=x_j)为概率质量函数在该点的取值\\ 连续型随机变量 & E(g(X))=\displaystyle\int_{-\infty}^{+\infty} g(x)f(x)dx &f(x)为随机变量的概率密度函数\\ \end{cases}\\ &可见导致矩的多样性的关键在于函数g(X)，随着g(X)的变化从而衍生出各种矩，\\ &比如说g(x)=x，则E(X)为一阶原点矩，也就是期望\\ &再比如g(x)=(x-\mu)^2，则E((X-\mu)^2)为二阶中心矩，即方差\\ &另外对比于下面要说的\textcolor{Red}{样本矩}，现在所说的矩被称为\textcolor{Blue}{总体矩}或者\textcolor{Blue}{实际矩} \end{aligned} }$
矩的种类
$\begin{aligned} &设X是均值为\mu，方差为\sigma^2的随机变量，则对于任何正整数n，定义矩的种类为\\ &\begin{cases} E(X^n)&为X的n阶原点矩&均值:一阶原点矩&E(X)\\ E((X-\mu)^n)&为X的n阶中心矩&方差:二阶中心距&E((X-\mu)^2)\implies E(X^2)-(E(X))^2\\ E((\frac{X-\mu}{\sigma})^n)&为X的n阶标准矩 &\begin{cases} 偏度:三阶标准矩&E((\frac{X-\mu}{\sigma})^3)\\ 峰度:四阶标准矩变形&E((\frac{X-\mu}{\sigma})^4)-3 \end{cases} \end{cases}\\ &对于一个离散变量的概率质量函数\\ &\begin{cases} E(X)=\sum_{j=1}^nm_jx_j &被称为系统的质心，也就是把各变量的概率看成质量，变量轴为杠杆的话，那么均值所处位置便是使左右杠杆相平衡的平衡点\\ Var(X)=\sum_{j=1}^nm_j(x_j-E(X))^2&被称为质心的转动惯量\\ \end{cases}\\ &其中m_j=P(X=x_j)\\ &\textcolor{blue}{随机变量的对称性}:如果X-\mu与\mu-X具有相同的分布，那么就说随机变量X有一个对称分布。\\ &当\mu=0时，称为“X关于0对称”，有时候简称“X是对称的"\\ &当\mu\neq 0时，称“X关于\mu对称”或者“X-\mu关于0对称”\\ &如果X的均值存在且X是对称分布，那么均值和中位数的值相等\\ &如果X为连续型随机变量且概率密度函数为f，则X关于\mu对称当且仅当f(x)=f(2\mu-x)对一切x都成立\\ &如果X是关于其均值\mu对称的随机变量，那么对于任一级数m，都有E((X-\mu)^m)=0成立\\ &\textcolor{blue}{偏度}:E((\frac{X-\mu}{\sigma})^3)\\ &通过LOTUS和原点矩公式可以把偏度理解为分布曲线被中轴划分成的左右两部分的面积差，偏度=右侧面积-左侧面积，\\ &当然实际值参与计算的“面积值”可能会比实际面积值要小，但偏度的符号不会改变\\ &\begin{cases} 偏度为正 \textcolor{blue}{\Large\Rightarrow}&PDF或PMF的右尾拖得比左尾拖得更长\\ 偏度为负 \textcolor{blue}{\Large\Rightarrow} &PDF或PMF的左尾拖得比右尾拖得更长\\ 偏度为零\textcolor{blue}{\Large\Rightarrow}&PDF或PMF关于均值对称\\ \end{cases} \xRightarrow{但逆命题是不成立的} \begin{cases} &PDF或PMF的右尾拖得比左尾拖得更长 \textcolor{Red}{\Large\nRightarrow} 偏度为正\\ &PDF或PMF的左尾拖得比右尾拖得更长 \textcolor{Red} {\Large\nRightarrow} 偏度为负\\ &分布不对称 \xRightarrow{也有可能}奇数阶中心距全为0 \end{cases}\\ &\textcolor{blue}{峰度}:E((\frac{X-\mu}{\sigma})^4)-3\\ &减3的目的在于使得任何正态分布的峰度都为0，对于没有减3的峰度称为"超值峰度"\\ &峰度较大的分布，在中心就具有尖峰，低肩和厚尾的概率密度函数\\ &\begin{cases} &峰度为正\implies尾部比正态分布要厚\\ &峰度为负\implies没有尾部，比如说均匀分布 \end{cases} \end{aligned}$

3. 样本矩

定义
设 $X_1,...,X_n$ 是独立同分布的随机变量，那么该随机变量的 $k$ 阶样本矩为 $M_k=\displaystyle\frac{1}{n}\sum_{j=1}^nX_j^k$ ，矩顾名思义是对一系列试验样本结果进行的统计计算，简单来说就是人们在处理手头数据时用的最基本的办法，比如说这个一阶样本矩就是求均值，把所有样本数据值加起来再除以数据个数。

理解
对比于上面所说的总体矩或实际矩进行比较说明

总体矩可以看做是通过逻辑理论推导出的分布的矩，而样本矩是通过样本试验去估计出的分布的矩
总体矩是已知随机变量分布后所求取的矩，这种矩是反应真实分布的矩是我们求取的目标；而样本矩是通过多次试验收集的数据进行计算后所得的矩，这种矩是总体矩的预估，也就是说当试验次数无限大，样本矩将无限接近总体矩
总体矩是一个值，而样本矩可以是一个值也可以当做一系列随机变量的组合来使用，尤其是在对样本矩求总体矩时，比如说 $E(\displaystyle\frac{1}{n}\sum_{j=1}^nX_j^k)=\frac{1}{n}(E(X_1^k)+\cdots+E(X_n^k))=E(X_1^k)$ ， $k$ 阶样本矩的期望是 $k$ 阶原点矩，这时样本矩是作为一个随机变量组合来带入运算的，根据此会得出一个结论 $\color{blue}k阶样本矩是总体k阶矩的无偏估计$

主要样本矩
$设X_1,\cdots,X_n是均值为\mu，方差为\sigma^2的随机变量$

样本均值: 样本均值就是一阶样本矩 $\overset{\text{---}}{X_n}=\displaystyle\frac{1}{n}\sum_{j=1}^nX_j$
样本均值的期望: $E(\overset{\text{---}}{X_n})=\mu所以样本均值\overset{\text{---}}{X_n}是\mu的无偏估计$
样本均值的方差: $\displaystyle Var(\overset{\text{---}}{X_n})=\frac{1}{n^2}Var(X_1+\cdots+X_n)=\frac{n}{n^2}Var(X_1)=\frac{\sigma^2}{n}$
恒等式： $\displaystyle \sum_{j=1}^n(X_j-c)^2=\sum_{j=1}^n(X_j-\overset{\text{---}}{X_n})^2+n(\overset{\text{---}}{X_n}-c)^2\quad c为常数$ 若使 $c=\mu$ 代入式子中，左右求期望，便可求出 $S_n^2$ 的无偏估计形式
样本方差： $\displaystyle S_n^2=\frac{1}{n-1}\sum_{j=1}^n(X_j-\overset{\text{---}}{X_n})^2$ .此处自由度是 $n - 1 而不是 n$ 的原意是为了使得样本方差为总体方差的无偏估计，也就是说 $E(S_n^2)=\sigma^2$ 。在此可以重新审视一下 $E (样本值)$ ，它可以看做是对一个样本值求期望，而如果这个期望等于总体值，那么就是说该样本值是总体值得无偏估计
样本标准差:样本标准差是样本方差的根方，不是总体方差的无偏估计
样本偏度： $\displaystyle \frac{\frac{1}{n}\sum_{j=1}^n(X_j-\overset{\text{---}}{X_n})^3}{S_n^3}$ 这是模仿公式 $E((\frac{X-\mu}{\sigma})^3)$ 所求得
样本峰度： $\displaystyle \frac{\frac{1}{n}\sum_{j=1}^n(X_j-\overset{\text{---}}{X_n})^4}{S_n^4}-3$ 同样是模仿公式 $E((\frac{X-\mu}{\sigma})^4)-3$ 所求得

4. 矩母函数

1). 矩母函数

矩母函数是对分布的矩进行编码的函数
对于 $t$ 的函数 $M(t)=E(e^{tX})$ ，如果它在含0点的开区间 $(- a, a)$ 内是有限的，那么它就是随机变量 $X$ 的矩母函数 $(\text{moment\, generating\,function记为MGF})$ ，否则就说 $X$ 的矩母函数不存在。
关于 $t$ ，只是一个记录变量，使得 $M (t)$ 为连续函数从而可以使用微积分
验证矩母函数的有效性， $M (0) = 1$ 成立则有效

2). 常用的随机变量的矩母函数

既然已经定义了 $M(t)=E(e^{tX})$ ，那么矩母函数的求解其实就是利用 $\small\text{LOTUS}$ 求 $E(e^{tX})$

伯努利分布的矩母函数， $\sim Bern(p)\ (q=1-p)$ ，则 $M(t)=E(e^{tX})=pe^t+q$
几何分布的矩母函数， $\sim Geom(p)\ (q=1-p)$ ，则 $\displaystyle M(t)=E(e^{tX})=\sum_{k=0}^\infty e^{tk}q^kp=\frac{p}{1-qe^t},qe^t<1$
均匀分布的矩母函数， $U\sim Unif(a,b)$ ，则 $\displaystyle M(t)=E(e^{tU})=\frac{1}{b-a} \int_a^be^{tu}du=\frac{e^{tb}-e^{ta}}{t(b-a)},t\neq 0$
二项分布的矩母函数， $X\sim Bin(n,p)\,(q=1-p)$ ，则 $M(t)=(pe^t+q)^n$
负二项分布的矩母函数， $\displaystyle M(t)=(\frac{p}{1-qe^t})^r, qe^t<1$
标准正态分布的矩母函数， $Z\sim N(0,1)$ ,则 $\displaystyle M(t)=E(e^{tZ})=\int_{-\infty}^{+\infty}e^{tz}\frac{1}{\sqrt{2\pi}}e^{-z^2/2}dz=e^{t^2/2}$
一般正态分布的矩母函数，对于 $X\sim N(\mu,\sigma^2)$ ，则 $M(t)=E(e^{tX})=e^{\mu t+\frac{1}{2}\sigma^2t^2}$
也就就是说对于任意的正态随机变量 $W$ ， $E(e^W)=e^{E(W)+\frac{1}{2} Var(W)}$
标准指数分布的矩母函数， $X\sim Expo(1)$ 则 $M(t)=E(e^{tX})=\int_0^{+\infty}e^{tx}e^{-x}dx=\frac{1}{1-t},t<1$ ，
一般指数分布的矩母函数，对于 $Y=\frac{X}{\lambda}\sim Expo(\lambda)$ ，则是 $M_Y(t)=e^0M_X(\frac{t}{\lambda})=\frac{\lambda}{\lambda - t},t<\lambda$
泊松分布的矩母函数，若 $X\sim Pois(\lambda)$ ，则 $\displaystyle E(e^{tX})=\sum_{k=0}^\infty e^{tx}\frac{e^{-\lambda} \lambda^k}{k!}\xlongequal{由于在泊松分布PMF中，k即是随机变量}e^{-\lambda}\sum_{k=0}^\infty\frac{(\lambda e^t)^k}{k!}=e^{-\lambda} e^{\lambda e^t}=e^{\lambda(e^t-1)}$
伽马分布的矩母函数，若 $X\thicksim Gamma(a,\lambda)，则\displaystyle M(t)=E(e^{tX})=(\frac{\lambda}{\lambda-t})^a\quad a>0,\lambda>0$
卡方分布的矩母函数，由于卡方分布变量 $\displaystyle V=Z_1^2+Z_2^2+\cdots+Z_n^2\thicksim Gamma(\frac{n}{2},\frac{1}{2})$ ，所以卡方分布的矩母函数实际上是一个部分参数确定的伽马分布矩母函数 $\displaystyle M_V(t)=(\frac{1/2}{1/2-t})^{n/2}=(\frac{1}{1-2t})^{n/2}$

3). 通过矩母函数求矩

$E(X^n)=M^{(n)}(0)$ 简单来说就是 $n$ 阶原点矩等于矩母函数的 $n$ 阶导数在 $0$ 点处的值

正态分布的各阶矩，关于正态分布的阶矩除了直接对矩母函数求导取零值外还可以通过对矩母函数的泰勒展开式中进行系数比较获得
$\displaystyle E(Z^{2n})=\frac{(2n)!}{2^nn!}=(2n-1)!!$
指数分布的各阶矩，同样指数分布的各阶矩也可以通过泰勒展开式中的系数对比快速获得，若 $X\sim Expo(1)$ ，则 $E(X^n)=n!$ ，若 $\displaystyle Y=\frac{X}{\lambda}\sim Expo(\lambda)$ ，则 $\displaystyle E(Y^n)=E(\frac{1}{\lambda^n}X^n)=\frac{1}{\lambda^n}E(X^n)=\frac{n!}{\lambda^n}$

4). 矩母函数确定分布

随机变量的矩母函数确定其分布：如果两个随机变量序列具有相同的矩母函数，那么它们一定具有相同的分布
如果 $X$ 与 $Y$ 相互独立，那么 $X + Y$ 的矩母函数是 $M_{X+Y}(t)=M_X(t)M_Y(t)$ ，
也就是说如果 $X$ 与 $Y$ 相互独立那么 $E(e^{t(X+Y)})=E(e^{tX})E(e^{tY})$
利用2中的规律，可以进一步算出一些由其他随机变量复合而成的复杂的随机变量的矩母函数，比如说二项分布随机变量是由多个伯努利分布随机变量所构成，而负二项分布随机变量又是由多个几何分布随机变量所构成

5). 矩母函数的复数形式（特征函数）

为了避免当矩的阶数增长太快，矩母函数有可能不存在，在矩母函数中加入一个虚数 $i$ ，形成一个新的函数 $\varPsi(t)=E(e^{itX})$ ，这被称为特征函数，仔细分析一下这个特征函数，如果 $X$ 是一个连续型随机变量，那么对比以下俩式
$\begin{cases} \displaystyle E(e^{itX})&=\int_{-\infty}^{+\infty}f(x)e^{itx}dx,&f(x)为概率密度函数\\ \displaystyle C_n&=\frac{1}{2T}\int_{-T}^{+T}f(x)e^{-i\frac{n\pi}{T}x}dx，&f(x)为傅里叶变换所要逼近的原函数 \end{cases}\\ 如果把t看做-\frac{n\pi}{T}那么其实特征函数就是一个傅里叶变换中求傅里叶系数的复数形式的过程$

6). 随机变量位置-尺度变换后的矩母函数

若 $X$ 的矩母函数是 $M_X(t)$ ，那么 $Y = a + b X$ 的矩母函数是 $E(e^{t(a+bX)})=e^{at}E(e^{btX})=e^{at}M_X(bt)$ ，可以通过此推导结果从比较简单的标准分布的矩母函数开始推出复杂的一般分布的矩母函数

7). 对数正态分布

如果 $X\sim N(\mu,\sigma^2)$ 且 $Y=e^X$ 则称 $Y$ 服从对数正态分布，意为对一个随机变量 $Y$ 取对数后所得的变量服从正态分布的话， $Y$ 就是一个对数正态变量，记为 $Y\sim LN(\mu,\sigma^2)$ 。很显然对于 $Y$ 来说由于是通过 $e^X$ 计算得来，所以是不可能等于或小于零的，只能是无限接近于零，也就是说 $Y$ 的分布全部在坐标轴的右半边，所以对数正态分布一定是右偏的。对数正态分布的矩母函数是不存在的，但是可以借助正态分布的矩母函数来求出其各阶矩，由于 $E(Y^n)=E(e^{nX})=M_X(n)=e^{n\mu+\frac{1}{2}n^2\sigma^2}$ ，很明显对数正态分布的 $n$ 阶原点矩就是正态分布的矩母函数在 $n$ 处的取值

8). 独立随机变量和的分布

独立泊松变量和的分布，若 $X\sim Pois(\lambda),Y\sim Posi(\mu)且相互独立$ 那么由于 $M_{X+Y}(t)=E(e^{tX})E(e^{tY})=e^{(\lambda+\mu)(e^t-1)}$ 正是 $Pois(\lambda + \mu)$ 的矩母函数，所以 $X+Y\sim Pois(\lambda + \mu)$
独立正态变量和的分布，若 $X_1\sim N(\mu_1,\sigma_1^2),X_2\sim N(\mu_2,\sigma_2^2)且相互独立$ ，那么由于 $\displaystyle M_{X_1+X_2}(t)=E(e^{tX_1})E(e^{tX_2})=e^{(\mu_1+\mu_2)t+\frac{1}{2}(\sigma_1^2+\sigma_2^2)t^2}$ 正是 $N(\mu_1 + \mu_2,\sigma_1^2+\sigma_2^2)$ 的矩母函数，所以 $X_1+X_2\sim N(\mu_1 + \mu_2,\sigma_1^2+\sigma_2^2)$
对于正态分布上述命题的逆命题也成立，比如两个独立变量 $X$ 与 $Y$ 的和 $X + Y$ 服从正态分布，那么 $X$ 与 $Y$ 也必定服从正态分布

9). 关于随机变量分布的证明

目前为止关于随机变量分布的证明大体有两种方法

全概率公式计算概率累积函数法
$已知Z\sim N(0,1),S为一随机数，S=\begin{cases}1,&概率为 1/2\\-1,&概率为1/2\end{cases},则SZ\sim N(0,1)$
证明很简单只需计算概率累积函数即可
$\begin{aligned} \displaystyle P(SZ \leq t)&=P(SZ \leq t \vert S=1)\frac{1}{2}+P(SZ \leq t \vert S=-1)\frac{1}{2}\\ &=P(Z \leq t)\frac{1}{2}+P(Z \geq -t )\frac{1}{2}\quad正态标准分布中P(Z \leq t)=P(Z \geq -t )\\ &=P(Z \leq t)\quad 概率累积函数相同所以俩分布相同SZ \sim N(0,1) \end{aligned}$
矩母函数比较法，由于矩母函数可以唯一地确定分布，所以两个矩母函数相同的随机变量，必然分布相同。比如上面证明两个正态分布变量的和也为正态分布

10). 联合矩母函数

关于联合矩母函数书上只是在证明正态随机向量中分量的无关性等价于独立性时提到过，对于两个随机变量 $X, Y$ 构成的联合分布，其联合矩母函数为 $M_{X,Y}(s,t)=E(e^{sX+tY})$

对于正态随机向量中分量的无关性等价于独立性的证明
$令(X,Y)是二元正态随机向量，E(X)=\mu_1,E(Y)=\mu_2,Var(X)=\sigma_1^2，Var(Y)=\sigma_2^2，Cov(X,Y)=\rho则$

$\textcolor{blue}{该随机向量的联合矩母函数}为M_{X,Y}(s,t)=E(e^{sX+tY})，由于(X,Y)是二元正态随机向量，所以其线性组合\\依然是一个正态分布。于是问题就转变为对于一个正态随机变量sX+tY的1值矩母函数的求值问题。\\ 即\displaystyle M_{sX+tY}(1)=E(e^{sX+tY})=e^{\displaystyle E(sX+tY)+\displaystyle\frac{1}{2} Var(sX+tY)}\\ \qquad\qquad \qquad \qquad \qquad \qquad =e^{\displaystyle sE(X)+tE(Y)+\displaystyle\frac{1}{2}(s^2Var(X)+t^2Var(Y)+2stCov(X,Y))}\\ \qquad \qquad \qquad \qquad \qquad \qquad =e^{\displaystyle s\mu_1+t\mu_2+\displaystyle\frac{1}{2}(s^2\sigma_1^2+t^2\sigma_2^2+2st\rho)}$
$\textcolor{blue}{如果X,Y不相关}，则\rho=0,于是\displaystyle M_{sX+tY}(1)=E(e^{sX+tY})=e^{\displaystyle s\mu_1+t\mu_2+\displaystyle\frac{1}{2}(s^2\sigma_1^2+t^2\sigma_2^2)}$
$此时如果设\textcolor{blue}{另外两个独立的随机变量Z,W},使得Z\thicksim N(\mu_1,\sigma_1^2)，W\thicksim N(\mu_2，\sigma_2^2)，则两者的线性\\组合的结果同样为一个正态分布sZ+tW，于是同样可以得到(Z,W)的联合矩母函数为\\ M_{Z,W}(s,t)=M_{sZ+tW}(1)=E(e^{sZ+tW})=e^{\displaystyle s\mu_1+t\mu_2+\displaystyle\frac{1}{2}(s^2\sigma_1^2+t^2\sigma_2^2)}$
$由上可知(X,Y)与(Z,W)的联合矩母函数相同，又由于\textcolor{blue}{联合矩母函数可以决定联合分布}，所以(X,Y)与(Z,W)\\ 拥有相同的联合分布，而Z与W相互独立，所以X与Y也相互独立$