概率论与数理统计C复习笔记（中）

Lord King

已于 2023-05-12 01:22:57 修改

阅读量305

点赞数 1

分类专栏：概率论与数理统计文章标签：概率论

于 2023-05-12 01:11:27 首次发布

本文链接：https://blog.csdn.net/m0_63104232/article/details/130464346

版权

概率论与数理统计专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了概率论中的三大分布——卡方分布、t分布和F分布，以及随机变量的数学期望、方差、协方差和相关系数的概念与性质。同时，概述了概率极限定理，包括依概率收敛、大数定律和中心极限定理，强调其在统计推断中的重要性。

摘要由CSDN通过智能技术生成

概率论与数理统计C复习笔记（上）_Deng ZY的博客-CSDN博客https://blog.csdn.net/m0_63104232/article/details/130417506?spm=1001.2014.3001.5501"统计学三大分布"

1. 卡方分布

$X_{1},\cdots,X_{n}\textup{ iid.},\sim N(0,1)$

$Y=\sum_{i=1}^{n}X_{i}^{2}$

Y服从自由度为n的卡方分布: $Y\sim\chi _{n}^{2}$

2. t分布

$X_{1}\sim\chi _{n}^{2},\; X_{2}\sim N(0,1),\; X_{1}\textup{ and }X_{2}\textup{ are independent random variables}$

$Y=\frac{X_{2}}{\sqrt{\frac{X_{1}}{n}}}$

Y服从自由度为n的t分布: $Y\sim t_{n}$

3. F分布

$X_{1}\sim \chi _{n}^{2},\; X_{2}\sim \chi _{m}^{2},\; X_{1}\textup{ and }X_{2}\textup{ are independent random variables}$

$Y=\frac{\frac{1}{m}X_{2}}{\frac{1}{n}X_{1}}$

Y服从自由度为(m,n)的F分布: $Y\sim F_{mn}$

随机变量的数字特征

1. 数学期望 (Expectation)

(1) 最简单的情况:

$P(X=x_{i})=p_{i}(i=1,2,\cdots,k),\;E(X)=\sum_{i=1}^{k}x_{i}p_{i}$

(2) 离散型随机变量:

$P(X=x_{i})=p_{i}(i=1,2,\cdots),\; E(X)=\sum_{i=1}^{\infty}x_{i}p_{i}\; \textup{if}\; \sum_{i=1}^{\infty}|x_{i}|p_{i}<\infty$

(3) 连续型随机变量:

$E(X)=\int_{-\infty}^{\infty}xf(x)\textup{d}x\; \textup{if}\; \int_{-\infty}^{\infty}|x|f(x)\textup{d}x<\infty$

(4) 数学期望的性质:

$E(c)=c$

$E(cX)=cE(X)$

$E\left(\sum_{i=1}^{k}X_{i}\right)=\sum_{i=1}^{k}E(X_{i})$

$E(aX+b)=aE(X)+b$

$E\left(\prod_{i=1}^{k}X_{i} \right )=\prod_{i=1}^{k}E(X_{i})\; \textup{if}\; X_{1},X_{2},\cdots,X_{k}\; \textup{are independent random variables}$

$E(g(X))=\sum_{i}g(x_{i})p_{i}\; \textup{or}\; \int_{-\infty}^{\infty}g(x)f(x)\textup{d}x$

$E(g(X,Y))=\sum_{i}^{}\sum_{j}^{}g(x_{i},y_{j})p_{ij}\textup{ or }\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)f(x,y)\textup{d}x\textup{d}y$

(5) 条件数学期望:

$E(X|Y=y)=\sum_{i}^{}x_{i}P(X=x_{i}|Y=y)\;\textup{or}\;\int_{-\infty}^{\infty}xf_{X|Y}(x|y)\textup{d}x$

(6) 全期望公式:

$E(X)=\sum_{j}^{}P(Y=y_{j})E(X|Y=y_{j})\;\textup{or}\; \int_{-\infty}^{\infty}E(X|Y=y)f_{Y}(y)\textup{d}y=E(E(X|Y))$

(7) 马尔可夫 (Markov) 不等式:

对任意随机变量X, 若E(X)存在, 则

$\forall \varepsilon >0,\; P(|X|\geqslant \varepsilon )\leqslant\frac{E(|X|)}{\varepsilon }$

通俗理解: 一个非负随机变量如果数学期望很小, 那么该随机变量取大值的概率也非常小.

2. 方差 (Variance)

(1) 定义:

$\textup{Variance}:\;D(X)\textup{ or Var}(X)=E((X-E(X))^{2})$

$\textup{Standard Deviation}:\; \sigma _{X}=\sqrt{D(X)}$

(2) 计算公式:

$D(X)=E(X^{2})-(E(X))^{2}$

(3) 方差的性质:

$D(c)=0$

$D(X+c)=D(X)$

$D(cX)=c^{2}D(X)$

$D(aX+b)=a^{2}D(X)$

$D\left ( \sum_{i=1}^{k}X_{i} \right )=\sum_{i=1}^{k}D(X_{i})\; \textup{if}\; X_{1},X_{2},\cdots,X_{k}\; \textup{are independent random variables}$

(4) 切比雪夫 (Chebyshev) 不等式:

对任意随机变量X, 若D(X)存在, 则

$\forall \varepsilon >0,\;P(|X-E(X)|\geqslant \varepsilon )\leqslant \frac{D(X)}{\varepsilon ^{2}}$

通俗理解: 如果一个随机变量的方差非常小, 那么该随机变量取远离数学期望的值的概率也非常小.

3. 常见随机变量的数学期望和方差

	$E(X)$	$D(X)$
伯努利分布: $X\sim B(1,p)$	$p$	$p(1-p)$
二项分布: $X\sim B(n,p)$	$np$	$np(1-p)$
泊松分布: $X\sim P(\lambda)$	$\lambda$	$\lambda$
几何分布: $X\sim G(p)$	$\frac{1}{p}$	$\frac{1-p}{p^{2}}$
均匀分布: $X\sim U(a,b)$	$\frac{a+b}{2}$	$\frac{(b-a)^{2}}{12}$
正态分布: $X\sim N(\mu,\sigma^{2})$	$\mu$	$\sigma ^{2}$
指数分布: $X\sim E(\lambda)$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^{2}}$

4. 协方差 (Covariance) 与相关系数 (Correlation Coefficient)

(1) 协方差的定义:

$\textup{Cov}(X,Y)=E((X-E(X))(Y-E(Y)))$

(2) 计算公式:

$\textup{Cov}(X,Y)=E(XY)-E(X)E(Y)$

$D(X\pm Y)=D(X)+D(Y)\pm 2\textup{Cov}(X,Y)$

(3) 协方差的性质:

$\textup{Cov}(X,X)=D(X)$

$\textup{Cov}(X,Y)=\textup{Cov}(Y,X)$

$\textup{Cov}(aX+b,cY+d)=ac\textup{Cov}(X,Y)$

$\textup{Cov}(X_{1}+X_{2},Y)=\textup{Cov}(X_{1},Y)+\textup{Cov}(X_{2},Y)$

$\textup{if}\; X\;\textup{and}\;Y\;\textup{are independent random variables, then Cov}(X,Y)=0$ (反之不一定成立)

$(\textup{Cov}(X,Y))^{2}\leqslant D(X)D(Y)\; \textup{equality holds iff.}\; \exists a,b\in \mathbb{R}\:(Y=a+bX)$

(4) 相关系数的定义:

$\rho=\rho_{XY}\textup{ or Corr}(X,Y)=\frac{\textup{Cov}(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$

(5) 相关系数的性质:

$\textup{if}\; X\;\textup{and}\;Y\;\textup{are independent random variables, then }\rho _{XY}=0$ (反之不一定成立)

$|\rho _{XY}|\leqslant 1\; \textup{equality holds iff.}\; \exists a,b\in \mathbb{R}\:(Y=a+bX)$

$\textup{if }(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho), \textup{ then }\rho=0\Leftrightarrow X\textup{ and }Y\textup{ are independent random variables}$

(6) 对相关系数含义的解释:

相关系数又称"线性相关系数", 它并非刻画了X与Y之间"一般"关系的程度, 而只是"线性"关系的程度. 当且仅当X和Y有严格的线性关系时, 才有相关系数的绝对值达到最大值1. 即使X与Y有某种非线性的严格的函数关系, 相关系数不仅不必为±1, 还可以为0 (例如Y=cosX).

从"最小二乘法"的角度来解释线性相关和相关系数的含义: 设有两个随机变量X, Y, 用X的线性函数来逼近Y, 用"最小二乘法"求出的最佳线性逼近为

$L(X)=E(Y)-\rho _{XY}\sqrt{\frac{D(Y)}{D(X)}}E(X)+\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}X$

这一逼近的剩余是

$E((Y-L(X))^{2})=D(Y)(1-\rho _{XY}^{2})$ .

如果 $\rho_{XY}=\pm 1$ , 则 $E((Y-L(X))^{2})=0$ , $Y=L(X)$ , 此时Y与X有严格线性关系. 若 $0<|\rho_{XY}|<1$ , 则 $|\rho_{XY}|$ 越接近1, 剩余越小, L(X)与Y的接近程度越大, X, Y之间线性关系的"程度"也越大; 反之, $|\rho_{XY}|$ 越接近0, 二者的线性关系程度越小. 当 $\rho_{XY}=0$ 时, X的线性作用已毫不存在. 当 $\rho_{XY}>0$ 时, X与Y正向相关; 反之, $\rho_{XY}<0$ 表示X与Y负向相关.

概率极限定理

1. 依概率收敛

$\textup{Let }X_{1},X_{2},\cdots\textup{ be a sequence of random variables, and let }a\in \mathbb{R}.$

$\textup{We say that the sequence }X_{n}\textup{ converges to }a\textup{ in probability, if }\forall \varepsilon >0,\textup{ we have }$

$\lim_{n \to \infty}P(|X_{n}-a|\geqslant \varepsilon )=0.$

$X_{n}$ 依概率收敛于 $a$ .

2. 以概率1 (或几乎处处) 收敛

$\textup{Let }X_{1},X_{2},\cdots\textup{ be a sequence of random variables, and let }a\in \mathbb{R}.$

$\textup{We say that the sequence }X_{n}\textup{ converges to }a\textup{ with probability 1 (or almost surely) if}$

$P(\lim_{n \to \infty}X_{n}=a)=1.$

$X_{n}$ 以概率1 (或几乎处处) 收敛于 $a$ .

3. 大数定律

(1) 弱大数定律:

$X_{1},X_{2},\cdots \textup{ iid., with mean }\mu .$

$\forall \varepsilon >0,\; \lim_{n \to \infty}P(|\bar{X_{n}}-\mu|\geqslant \varepsilon )=0\; \left ( \bar{X_{n}}=\frac{\sum_{i=1}^{n}X_{n}}{n} \right ).$

通俗理解: 独立同分布的随机变量序列的样本均值, 在大样本的情况下 (n很大), 以很大的概率与随机变量的均值非常接近 ( $\bar{X_{n}}$ 接近于 $\mu$ ).

重要特例——"伯努利大数定律" (即"频率收敛于概率"):

$\lim_{n\to \infty}P(|p_{n}-p|\geqslant \varepsilon )=0.$

(2) 强大数定律:

$X_{1},X_{2},\cdots\; \textup{iid., with mean }\mu .$

$P(\lim_{n \to \infty}\bar{X_{n}}=\mu)=1\; \left ( \bar{X_{n}}=\frac{\sum_{i=1}^{n}X_{n}}{n} \right ).$

弱大数定律只能保证对充分大的 $n^{*}$ , 随机变量 $\frac{X_{1}+\cdots+X_{n^{*}}}{n^{*}}$ 靠近 $\mu$ , 但它不能保证 $\forall n>n^{*},\; \frac{X_{1}+\cdots+X_{n}}{n}$ 也一定在 $\mu$ 的附近. 这样, $|\bar{X_{n}}-\mu|$ 可以无限多次离开0 (尽管出现较大偏离的概率不会很高) .

而强大数定律能保证这种情况不会出现, 它能够以概率为1地保证, $\forall \varepsilon >0,\; |\bar{X_{n}}-\mu|>\varepsilon$ 只可能出现有限次.

4. 中心极限定理

概率论中最重要的理论之一. 它是指大量独立随机变量之和的分布可以近似为正态分布.

(1) 林德伯格—莱维 (Lindberg-Lévy) 定理:

$X_{1},X_{2},\cdots\; \textup{iid., with }E(X_{i})=\mu \;\textup{and}\; D(X_{i})=\sigma ^{2}$

$\forall x\in \mathbb{R},\; \lim_{n \to \infty}P\left ( \frac{1}{\sqrt{n}\sigma }\left ( \sum_{i=1}^{n}X_{i}-n\mu \right ) \leqslant x\right )=\Phi (x)$

$\Phi (x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^{2}}{2}}\textup{d}t$

(2) 棣莫弗—拉普拉斯 (De Moivre-Laplace) 定理:

$X_{1},X_{2},\cdots\; \textup{iid.,}\sim B(1,p)$

$\forall x\in \mathbb{R},\; \lim_{n\to \infty}P\left ( \frac{1}{\sqrt{np(1-p)}}\left ( \sum_{i=1}^{n}X_{i}-np \right )\leqslant x \right )=\Phi(x)$

此处 $\sum_{i=1}^{n}X_{i}\sim B(n,p)$ , 故此定理是用正态分布去逼近二项分布, 与用泊松分布去逼近二项分布的应用不同: 正态分布逼近用于p固定, 因而当n很大时np很大的情况; 泊松分布逼近则用于p很小 (p随n变化以趋向于0) 但np=𝜆不太大时的情况. 二者的共同点是n必须相当大.

(3) 近似公式:

使用前提——n相当 (充分) 大

$P\left ( a\leqslant \sum_{i=1}^{n}X_{i}\leqslant b \right )\approx \Phi \left ( \frac{b-np}{\sqrt{np(1-p)}} \right )-\Phi \left ( \frac{a-np}{\sqrt{np(1-p)}} \right )\; (a\leqslant b)$

修正后近似效果更好的公式:

$P\left ( a\leqslant \sum_{i=1}^{n}X_{i}\leqslant b \right )\approx \Phi \left ( \frac{b+0.5-np}{\sqrt{np(1-p)}} \right )-\Phi \left ( \frac{a-0.5-np}{\sqrt{np(1-p)}} \right )\; (a\leqslant b)$