概率论复习笔记

最新推荐文章于 2024-10-11 16:29:11 发布

w_uxidixi

最新推荐文章于 2024-10-11 16:29:11 发布

阅读量975

点赞数 2

分类专栏：本科概率论复习

本文链接：https://blog.csdn.net/w_udixixi/article/details/117670112

版权

本科概率论复习专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了概率论中的随机事件及其概率，包括等可能概型、全概率公式和贝叶斯公式。接着深入探讨了离散型和连续型随机变量的分布，如二项分布、泊松分布、几何分布、均匀分布、指数分布和正态分布。还讨论了随机变量的函数分布，特别是边缘分布和条件分布。随后，阐述了随机变量的数字特征，如数学期望、方差、矩和协方差矩阵，并讲解了大数定律和中心极限定理。最后，简要概述了统计学中的参数估计，包括点估计和区间估计，以及无偏性、有效性、一致性的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一章随机事件及其概率

频率稳定值 $\Rightarrow$ 引入”概率“的概念

一、等可能概型（古典概型）

若随机试验 $E$ 满足以下条件：

(1)样本空间 $S$ 只有有限个样本点，即 $S=\{e_1,e_2,...e_n\}$ ；

(2)每个样本点出现的可能性相同，即对基本事件 ${e_i\}(i=1,2,..n)$ 而言，有

$P(\{e_1\})=P(\{e_2\})=...P(\{e_n\})$

则称这类随机现象的数学模型为等可能概型

应用：

取小球、取灯泡次品、掷骰子

引出：

生日悖论 $\Rightarrow$ 设计密码学攻击方法

几何概型 $\Rightarrow$ 无穷多个样本点时，抽象成落点区域的面积(蒲丰投针实验求 $\pi$ )

二、全概率公式

设试验 $E$ 的样本空间为S， $A$ 为 $E$ 的一个事件， $B_1,B_2,...B_n$ 为 $S$ 的一个划分，且 $P(B_i)>0,i=1,2,...n$ ，则

$P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...P(A|B_n)P(B_n)$ 称为全概率公式

证明：

根据加法公式

应用：

直接求 $P (A)$ 不好求 $\Rightarrow$ 找到S的一个合适的划分，根据全概率公式求

三、贝叶斯公式

设实验 $E$ 的样本空间为 $S$ ， $A$ 为 $E$ 的事件， $B_1,B_2,...B_n$ 为S的一个划分，且 $P(A)>0,P(B_i)>0,i=1,2,...n$ 则有

$P(B_i|A)=$ ${P(B_i)P(A|B_i)}\over{\sum_{j=1}^{n}P(B_j)P(A|B_j)}$

$P(B_i)$ 称为先验概率，它反映了各种原因发生的可能性大小，”主观概率“

$P(B_i|A)$ 称为后验概率

证明：

条件公式+全概率公式

第二章随机变量及其分布

随机变量的引入意义重大

一、离散型随机分布

1.二项分布

对于实验 $E$ ，各次实验独立，只有两个可能的对立结果： $A$ 和 $\overline A$ ，重复进行 $n$ 次，称这一串重复的独立试验为 $n$ 重伯努利试验，称随机变量 $X$ 服从参数为 $n, p$ 的二项分布， $X\sim B(n,p)$ 。

$P\{X=k\}=C_n^kp^k(1-p)^{n-k}，(k=0,1,...n,0<p<1)$

特别的，当n=1时，称为**(0-1)分布**

对于概率 $P\{X=k\}$ 的最大值问题： $P\{X=k\}=max\{P\{(n+1)p\},P\{(n+1)p-1\}\}$

证明：

$p_k,p_{k-1}$ 除法证明

超几何分布产生于不放回抽样，二项分布产生于放回抽样

当n<<N时，超几何分布可以用二项分布来近似

泊松定理：

$\lim_{n \to \infty} C_n^kp^k(1-p)^{n-k}={{\lambda^k}\over{k!}}e^{-\lambda}$

$\Rightarrow$ 二项分布的近似计算公式(令 $np=\lambda$ )

证明：

$\lim_{n \to \infty} {n!\over (n-k)!n^k}=1$

$\lim_{n \to \infty} (1-{\lambda\over n})^k=1$

$\lim_{n \to \infty} (1-{\lambda\over n})^n=e^{-\lambda}$

2.泊松分布

设随机变量 $X$ 的所有可能取值为0,1,2,…，而取各个值的概率为

$P\{X=k\}={{\lambda^k}\over{k!}}e^{-\lambda},(k=0,1,2,...,\lambda>0)$

则称 $X$ 服从参数为 $\lambda$ 的泊松分布，记作 $\sim \pi(\lambda)$

3.几何分布

若随机变量的 $X$ 的分布律为

$P\{X=k\}=(1-p)^{k-1}p,(k=1,2,...,0<p<1)$

则称 $X$ 服从几何分布，记作 $\sim G(p)$

特别的，在伯努利试验中，事件A首次发生的试验次数服从几何分布

性质：

无记忆性： $P\{X>n+m|X>n\}=P\{X>m\}$

二、连续型随机变量及其概率密度函数

$F(x)=\int_{-\infty}^xf(t) {\rm d}t$

$\lim_{\Delta x \to +0}\int_{x_0-\Delta x}^{x_0} f(x){\rm d}x=0 \Rightarrow$ 取任一指定的实数值的概率为零，即 $P\{X=x_0\}=0$

$P (A) = 0$ 不意味着A是不可能事件，这是从微元的角度上来说的

1.均匀分布

若连续型随机变量 $X$ 的概率密度函数为

$\begin{cases} 1\over{b-a}& \text{a<x<b}\\ 0& \text{else} \end{cases}$

则称 $X$ 在区间 $(a, b)$ 上服从均匀分布，记作 $\sim U(a,b)$

2.指数分布

若连续型随机变量 $X$ 的概率密度函数为

$\begin{cases} \lambda e^{-\lambda x}& \text{x>=0}\\ 0& \text{x<0} \end{cases}$

其中 $\lambda >0$ 为常数，则称 $X$ 服从参数为 $\lambda$ 的指数分布，记作 $\sim E(\lambda)$

满足无记忆性，在可靠性理论和排队论中广泛应用

3.正态分布

若连续型随机变量 $X$ 的概率密度函数为

$f(x)={1\over {\sqrt{2 \pi }\sigma}} e^{-{{(x-\mu)^2}\over {2\sigma^2}}}$

其中 $\sigma>0,\mu$ 为常数，则称 $X$ 服从参数为 $\mu,\sigma$ 的正态分布或高斯分布，记作 $\sim N(\mu,\sigma^2)$

特别的，当 $\mu=0,\sigma=1$ 时的正态分布称为标准正态分布，记作 $N (0, 1)$

定理1：若 $X$ 服从正态分布 $N(\mu,\sigma^2)$ ，则 $Z={X-\mu \over \sigma}$ 服从标准正态分布

发现1：对于标准正态分布而言，当变量值落在 $\mu \pm 3\sigma$ 的范围内时，几乎是必然事件，这就是”3 $\sigma$ "原则

三、随机变量的函数分布

设随机变量 $X$ 具有概率密度函数 $f_X(x),-\infty<x<+\infty$ ，又设函数 $g (x)$ 处处可导且严格单调， $h (y)$ 是 $g (x)$ 的反函数，则 $Y = g (X)$ 是连续型随机变量，其概率密度函数为

$f_Y(y)= \begin{cases} f_X[h(y)]|h'(y)|& \alpha<y<\beta\\ 0& \text{else} \end{cases}$

1.求导+绝对值

2.注意分段单调的情况

第三章多维随机变量及其分布

二维随机变量 $(X, Y)$ 的性质不仅与 $X$ 和 $Y$ 有关，而且还依赖于这两个随机变量的相互关系。

作为整体研究时：联合分布函数 $F(x,y)=P\{X<=x\}\bigcap P\{Y<=y\}$

单独考虑某一个随机变量的概率分布问题： $F_X(x)=P\{X<=x,Y<+\infty\}$

$X, Y$ 相互独立的充要条件：对任意的实数 $x, y$ ,都有 $f(x,y)=f_X(x)f_Y(y)$

两种典型的：二维均匀分布，二维正态分布

一、边缘分布

暂时不考虑二维离散型随机变量：

设 $f (x, y)$ 是 $(X, Y)$ 的概率密度函数，则 $(X, Y)$ 关于 $X, Y$ 的边缘概率密度函数为：

$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy$

$f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$

二、条件分布

设 $(X, Y)$ 的概率密度函数为 $f (x, y)$ , $f_Y(y)$ 为Y的边缘概率密度函数，对于固定的 $y$ ， $f_Y(y)>0$ , $f(x,y)\over f_Y(y)$ 为在 $Y = y$ 的条件下 $X$ 的条件概率密度函数，记为：

$f_{X|Y}(x|y)={f(x,y)\over f_Y(y)}$

三、二维随机变量的函数分布

1.Z=X+Y的分布

$F_Z(z)=P\{Z \leq z\}=\iint_{x+y \leq z}f(x,y)dxdy$

$=\int_{-\infty}^{+\infty}[\int_{-\infty}^{z-y}f(x,y)dx]dy$

$=\int_{-\infty}^{+\infty}\int_{-\infty}^{z}f(u-y,y)dudy$

$=\int_{-\infty}^{z}[\int_{-\infty}^{+\infty}f(u-y,y)dy]du$

故 $f_Z(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy$

同理， $f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx$

特别的，当 $X, Y$ 相互独立时， $f_Z(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy$

$f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx$

卷积公式，记作 $f_X*f_Y$

推广：对于两个正态分布， $Z = X + Y$ 服从正态分布 $N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$

2.Z=X/Y和Z=XY的分布

$f_Z(z)=f_{X\over Y}(z)=\int_{-\infty}^{+\infty}|y|f(yz,y)dy$

$f_Z(z)=f_{XY}(z)=\int_{-\infty}^{+\infty}|{1\over X}|f(x,{z \over x})dx$

同样可以推广到 $X, Y$ 相互独立的情况

第四章随机变量的数字特征

数字特征 $\Rightarrow$ 概略地描述随机变量的基本特点，能代表随机变量的主要特征

一、数学期望

它描述了随机变量一切可能取值的平均水平

离散型随机变量： $E(X)=\sum_{k=1}^{+ \infty} x_kp_k$

连续型随机变量： $E(X)=\int_{-\infty}^{+\infty}xf(x)dx$

离散型随机变量函数： $E(Y)=E[g(X)]=\sum_{k=1}^{+ \infty} g(x_k)p_k$

连续型随机变量函数： $E(Y)=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f(x)dx$

推广到二维连续型： $E(Z)=E[g(x,y)]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy$

所有的数学期望存在的充要条件是后式绝对收敛

性质：

对于常数 $C$ , $E (C X) = C E (X)$

$E (X + Y) = E (X) + E (Y)$

$E (X Y) = E (X) E (Y)$ 是 $X, Y$ 相互独立的必要条件，而不是充要条件

二、方差

它反映了随机变量取值与数学期望值的偏离程度，越小越集中

方差： $Var(X)=D(X)=E\{[X-E(X)]^2\}$

标准差： $\sigma(X)=\sqrt{D(X)}$

计算方法：

$D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx$

$D(X)=E(X^2)-[E(X)]^2$

性质：

对于常数 $C$ , $D(CX)=C^2D(X)$

$D(X+Y)=D(X)+D(Y)+2E{(X-E[X])(Y-E[Y])}$

$D (X + Y) = D (X) + D (Y)$ 是 $X, Y$ 相互独立的必要条件，而不是充要条件

常见随机变量的数学期望和方差总结：

1.二项分布

$E (X) = p, D (X) = p (1 - p)$

2.泊松分布

$E(X)=\lambda,D(X)=\lambda$

3.几何分布

$E(X)={1\over p},D(X)={1-p\over p^2}$

4.均匀分布

$E(X)={a+b\over 2},D(X)={(b-a)^2\over 12}$

5.指数分布

$E(X)={1\over \lambda},D(X)={1\over \lambda^2}$

6.正态分布

$E(X)=\mu,D(X)=\sigma^2$

三、协方差及相关系数

对于二维随机变量，描述 $X$ 和 $Y$ 之间的相互关系

协方差： $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}=E(XY)-E(X)E(Y)$

性质：

$C o v (X, X) = D (X)$

$C o v (a X, b Y) = a b C o v (X, Y)$

$C o v (X + Y, Z) = C o v (X, Z) + C o v (Y, Z)$

相关系数： $\rho_{XY}={Cov(X,Y)\over \sqrt{D(X)D(Y)}}$

$|\rho|\leq 1$ ，反映了 $X$ 和 $Y$ 之间的线性相关程度，=0表示不相关，=1正相关，=-1负相关

柯西-施瓦兹不等式： $[E(XY)]^2 \leq E(X^2)E(Y^2)$ 当且仅当 $P\{Y=t_0X\}=1$ 时取等

$X, Y$ 独立可以推出不相关，但反之不行，即不相关是独立的必要条件

四、矩、协方差矩阵

$E(X^k)$ 存在，称为 $k$ 阶矩

$E\{[X-E(X)]^K\}$ 存在，称为 $k$ 阶中心矩

$E(X^kY^l)$ 存在，称为 $k + l$ 阶混合矩

$E\{[X-E(X)]^K[Y-E(Y)]^l\}$ 存在，称为 $k + l$ 阶混合中心矩

$Cov(X_i,X_j)$ 构成的矩阵称为 $X_1,X_2,...X_n)$ 的协方差矩阵

跳出二维，为了描述更多维度的相关性！！

第五章大数定律和中心极限定理

一、大数定律

切比雪夫不等式是主要基础

$P\{|X-\mu| \geq \epsilon\}\leq {\sigma^2\over \epsilon^2}$

证明：

$D (X)$ 基础定义+分布函数定义

1.切比雪夫大数定律

设 ${X_k\}(k=1,2,..)$ 为两两相互独立的随机变量序列，且数学期望存在，方差 $D(X_k)\leq c(k=1,2,..)$ ，则对于任意的正数 $\epsilon$ ，有

$\lim_{n \to +\infty}P\{|{1\over n}\sum_{k=1}^{n}X_k-{1\over n}E(\sum_{k=1}^{n}X_k)|<\epsilon\}=1$

2.伯努利大数定律

设随机变量 $X_n \sim B(n,p),n=1,2,..$ ，则有

$\lim_{n \to +\infty}P\{|{X_n\over n}-p|<\epsilon\}=1$

3.辛钦大数定律

设随机变量 $X_1,X_2..X_n$ 独立同分布，具有数学期望 $E(X_i)=\mu$ ，则有

$\lim_{n \to +\infty}P\{|{1\over n}\sum_{i=1}^{n}X_i-\mu|<\epsilon\}=1$

注：此时不要求方差存在

二、中心极限定理

高斯指出误差服从正态分布

中心极限定理是找出某些大量的非正态分布的随机变量的和在某些条件下趋于正态分布

1.林德贝格-勒维定理

又称独立同分布的中心极限定理

在实际应用中，只要 $n$ 充分大，就可以把独立同分布的随机变量 $X_1,X_2,..X_n$ 的和近似看作正态随机变量 $N(n\mu,n\sigma^2)$

$\lim_{n\to +\infty}P\{{\sum_{k=1}^{n}X_k-n\mu\over \sqrt{n}\sigma}\leq x\}=\Phi(x)$

2.德莫佛-拉普拉斯定理

当 $n$ 充分大时，二项分布的极限分布就是正态分布，可以近似认为 $X\sim N(np,np(1-p))$

$\lim_{n\to +\infty}P\{{X_n-np\over \sqrt{np(1-p)}}\leq x\}=\Phi(x)$

第六章数理统计的基本概念

一、总体与样本

总体、个体、样本的概念

样本的选取一般满足代表性和独立性

二、统计量

构造统计量 $\Rightarrow$ 对已有样本进行加工

常见的统计量：

1.样本均值

$\overline{X}={1\over n}\sum_{i=1}^{n}X_i$

2.样本方差

$S^2={1\over n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2$

其中， $S$ 称为样本标准差

3.样本k阶原点矩

$A_k={1\over n}\sum_{i=1}^{n}X_i^k,(k=1,2,..)$

4.样本k阶中心矩

$B_k={1\over n}\sum_{i=1}^{n}(X_i-\overline{X})^k,(k=1,2,..)$

若总体的期望和方差存在，即 $E(X)=\mu,D(X)=\sigma^2$

则 $E(\overline{X})=\mu,D(\overline{X})={\sigma^2\over n}$

$E(S^2)=\sigma^2,E(B_2)={n-1\over n}\sigma^2$

三、抽样分布

全部可能样本的统计量的概率分布叫作抽样分布

几个常见的抽样分布：

1.开方分布

设随机变量 $X_1,X_2,..X_n$ 相互独立，且均服从 $N (0, 1)$ ，则称

随机变量 $\chi^2=\sum_{i=1}^{n}X_i^2$ 服从自由度为 $n$ 的 $\chi^2$ 分布

性质：

$E(\chi^2)=n,D(\chi^2)=2n$

上 $\alpha$ 分位点一般查表获得

若 $\chi_1^2$ 和 $\chi_2^2$ 相互独立，则 $\chi_1^2+\chi_2^2 \sim \chi^2(n_1+n_2)$

2.t分布

设随机变量 $X$ 与 $Y$ 相互独立， $\sim N(0,1),Y \sim \chi^2(n)$ ，则称

随机变量 $T={X\over \sqrt{Y/n}}$ 服从自由度为 $n$ 的 $t$ 分布，记作 $T\sim t(n)$

性质：

分布概率密度函数为偶函数

$E(T)=0,D(T)={n\over n-2},(n>2)$

3.F分布

设随机变量 $X$ 和 $Y$ 相互独立，且 $X\sim \chi^2(n_1),Y\sim \chi^2(n_2)$ ，则称

随机变量 $F={X/n_1\over Y/n_2}$ 服从自由度为 $n_1,n_2)$ 的 $F$ 分布，记作 $F\sim F(n_1,n_2)$

其中, $n_1,n_2$ 分别称为第一自由度和第二自由度

性质：

若 $X\sim N(0,1),Y\sim \chi^2(n)$ ，则 ${nX^2\over Y}\sim F(1,n)$

若 $F\sim F(m,n)$ ，则 ${1\over F}\sim F(n,m)$

设总体 $X$ 服从正态分布 $N(\mu,\sigma^2)$ ，则

(1)样本均值 $\overline{X}$ 与样本方差 $S^2$ 相互独立

(2) $\chi^2={(n-1)S^2\over\sigma^2}\sim \chi^2(n-1)$

(3) $T={\overline{X}-\mu\over S/\sqrt{\mu}}\sim t(n-1)$

(4) $\chi^2={1\over \sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2 \sim \chi^2(n)$

第七章参数估计

统计推断的两个领域：参数估计和假设检验

一、点估计

1.矩估计

若总体 $X$ 的前 $k$ 阶矩存在，则有

$\mu_j=E(X^j)=\mu_j(\theta_1,\theta_2,..,\theta_k),(j=1,2,...k)$

各阶矩是未知的，但样本矩 $A_j={1\over n}\sum_{i=1}^{n}X_i^j(j=1,2,...k)$ 是可以获得的，由辛钦大数定律知，随机样本的原点矩依概率收敛于总体的原点矩，这就启发我们用样本矩替换总体矩，基于这种思想求估计量的方法称为矩估计法。矩估计法是以大样本为应用对象的。