概率与统计之六

君之微

已于 2022-06-05 13:13:09 修改

阅读量1k

点赞数

分类专栏：概率论文章标签：概率论机器学习人工智能

于 2022-03-29 22:48:06 首次发布

本文链接：https://blog.csdn.net/m0_58377977/article/details/123308557

版权

概率论专栏收录该内容

10 篇文章 1 订阅

订阅专栏

$\color{green}\Large\textbf{概率与统计之六}$
文章为一些读书笔记，原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著，案例讲解和讲述证明是本书的一大特点，教给人们的不只是一些概率论的概念和公式，而是思考问题的思维方式和策略。不过就是书里的错印有点多，需要边看边改。
_(:з」∠)

一. 不等式与极限定理

此章主要介绍了一些对于不确定概率的估值方法

1. 柯西施瓦茨不等式

1). 不等式定义

该不等式在不同的数学应用场景下有不同的表达方式，在概率学中的定义为
$对任意的随机变量X和Y，X和Y的方差有限，都有|E(XY)|\leq \sqrt{E(X^2)E(Y^2)}，\\ 对于样本向量x,y而言这其实就是|<x,y>|\leq ||x||\cdot||y||$
$如果X与Y的期望为0，那么Cov(X,Y)=E(XY)-E(X)E(Y)=E(XY),E(X^2)=Var(X)，E(Y^2)=Var(Y)，\\ 于是\displaystyle |Corr(X,Y)|=\frac{|Cov(X,Y)|}{\sqrt{Var(X)Var(Y)}}=\frac{|E(XY)|}{\sqrt{E(X^2)E(Y^2)}}\leq1\implies -1\leq Corr(X,Y)\leq1，\\这是我们非常熟悉的统计解释$

2). 二阶矩法

此法主要是对非负随机变量 $X$ 要求 $P (X = 0)$ 的上限
$\begin{aligned} &这里设了一个示性变量I(X>0)即X>0时I=1，X=0时I=0，设X=XI不难看出 \begin{cases}X>0& I=0\Rightarrow XI=X\\ X=0&XI=0\Rightarrow X=XI \end{cases}\\ &于是E(X)=E(XI)\leq \sqrt{E(X^2)E(I^2)}=\sqrt{E(X^2)P(X>0)}\Rightarrow P(X>0)\geq \frac{E^2(X)}{E(X^2)}\\ &或者1-P(X>0)\leq1-\frac{E^2(X)}{E(X^2)}\Rightarrow P(X=0)\leq \frac{Var(X)}{E(X^2)}，这种约束方法便是二阶矩法，接下来只需确定随机变量X\\ &的类型或构造即可 \end{aligned}$

3). 联合矩母函数的存在

$令X_1和X_2是联合分布的随机变量。是否独立是否同分布无关，所有情况皆可。如果X_1和X_2的边缘矩母函数都存在，\\ 那么随机向量(X_1,X_2)的联合矩母函数存在$
$\begin{aligned} &联合矩母函数的形式为M(s,t)=E(e^{sX_1+tX_2})，要证明其存在便是要证明该式子在原点附近的区域内有限\\ &于是通过柯西施瓦茨不等式E(e^{sX_1+tX_2})\leq \sqrt{E(e^{2sX_1})E(e^{2tX_2})}便能证明这一点\end{aligned}$

4). 证明过程

其实柯西施瓦茨不等式没啥好多说的，不过书中对于它的证明倒是挺有意思，
$对于任意t有0\leq E(Y-tX)^2=E(Y^2)-2tE(XY)+t^2E(X^2)，这个式子成立是显而易见的因为非负变量的均值\\ 不可能小于0，关键在于t的求值，很明显右式的最小值也会不小于0，那么要求右式的最小值无外乎就是对t求导，\\ 因为其余的变量期望都是固定的常数值，于是可得\displaystyle t=\frac{E(XY)}{E(X^2)}，将其代回到右式进而化简便可得到不等式的\\最终表示形态$

2. 詹森不等式

1). 定义

$\begin{aligned} &设X为一个随机变量。那么 \begin{cases} E(g(X))\geq g(E(X)) &当g为下凸函数\\ E(g(X))\leq g(E(X)) &当g为上凸函数\\ E(g(X))= g(E(X)) &当g为直线函数\\ \end{cases}\\ &简单来说这是随机分布中对凹凸函数的一个利用，证明也比较简单，\\ &令\mu=E(X)，考虑点c=(\mu,g(\mu))，显然点c即在曲线g(x)上又在g(x)在c点的切线上，用a+bx表示这条切线。\\ &那么X轴在\mu处有a+b\mu=g(\mu)，于是\\ &对于\textcolor{blue}{上凸函数}始终有g(x)\leq a+bx，左右取数学期望有E(g(X))\leq E(a+bX)=a+bE(X)=a+b\mu=g(\mu)=g(E(X))\\ &对于\textcolor{blue}{下凸函数}始终有g(x)\geq a+bx，左右取数学期望有E(g(X))\geq E(a+bX)=a+bE(X)=a+b\mu=g(\mu)=g(E(X))\\ &对于\textcolor{blue}{直线}，g(x)=a+bx,左右取数学期望有E(g(X))= E(a+bX)=a+bE(X)=a+b\mu=g(\mu)=g(E(X))\\ \end{aligned}$
在这里插入图片描述
个人的一个对詹森不等式很不严谨但是比较直观的理解
如果我们用最直观的看法去看待詹森不等式便如上图，

假定 $X$ 为均匀分布，一般我们认为定义域的均值常在曲线的中心附近，那么 $g (E (X))$ 的取值便是在值域的低端(下凸函数)或者顶点附近(上凸函数)，
而值域的均值 $E (g (X))$ 常在值域的中心附近
于是对于上凸函数 $E(g(X))\leq g(E(X))$ 而下凸函数 $E(g(X))\geq g(E(X))$

2). 例子

$E|X|\geq |EX|\quad g(x)=|x|为下凸函数$
$E(1/X)\geq 1/(EX)，对于正的随机变量\quad \displaystyle g(x)=\frac{1}{x},x>0为下凸函数$
$E(ln(X))\leq ln(EX)，对于正的随机变量\quad g(x)=ln(x),x>0为上凸函数$
$样本标准差的偏差，样本方差S_n^2是真实方差的无偏估计，即E(S_n^2)=\sigma^2，但样本标准差却不是真实标准差的\\ 无偏估计，具体来讲是E(S_n)=E(\sqrt{S_n^2})\leq\sqrt{E(S_n^2)}=\sqrt{\sigma^2}=\sigma，也就是说样本标准差往往低估于真正的\\标准差，不过如果样本量相当大，则偏差通常很小$

3). 熵

熵最早是物理学中的概念，后来引入到信息论中，放到概率学中，其表示对于一个以某种概率发生的事件或者某一随机分布所蕴含的信息量的估计
$\textcolor{blue}{定义发生概率为p的事件的熵为log_2(1/p)}$

$显然 p 越小，熵越大，即事件越不可能发生它的熵值就越大$
$而当 p = 1 时，即事件百分百可能发生时，那么熵值为 0$

直观上来看就是一个事件越直接越容易发生，那它所隐藏的内部信息就越少，如果一个事件的可能性越多，那它的隐情就越多，也就是内涵的信息就越多

$\textcolor{blue}{定义随机变量的熵}$
$\begin{aligned} &令X为一离散型随机变量，其不同的可能取值是a_1,a_2,\cdots a_n，其概率分别为p_1,p_2,\cdots p_n，且p1+p_2+\cdots+p_n=1。\\ &将X取不同值时的熵的平均值定义为X的熵。表达式为H(X)=\sum_{j=1}^np_jlog_2(1/p_j)。\\ &可以看到X的熵只与概率p_j有关，并且利用詹森不等式可以证明当X为均匀分布变量时，H(X)取最大值\\ &同样直观上来讲，如果X能任意取到的结果越多，那它覆盖的信息量就越大，而如果它被限制到只能取几个少数的结果，\\ &那很显然它所覆盖的信息就越少，因为就那么一两种可能自然没啥信息 \end{aligned}$

4). 库尔贝克莱布勒差异

库尔贝克莱布勒差异是熵的一个重要应用
定义
$令p=(p_1,\cdots,p_n)和r=(r_1,\cdots,r_n)是两个概率向量，也就是说向量中的分量不会小于0，且总和为1。\\把它们看成是一个随机变量可能的概率质量函数，其支撑集由n个不同的值组成。\\向量p与r之间的(库尔贝克莱布勒)差异被定义为\\ \displaystyle D(p,r)=\sum_{j=1}^n p_j log_2(\frac{1}{r_j}) - \sum_{j=1}^n p_j log_2(\frac{1}{p_j})=\sum_{j=1}^np_jlog_2(\frac{p_j}{r_j})=-\sum_{j=1}^np_jlog_2(\frac{r_j}{p_j})\\ 这是当实际概率为p，却使用了r作为概率时，平均熵之间的差异，简单来说就是实际概率p与推测概率r。\\而平均熵是由p来决定的也就是说每一个事件发生的概率仍然是p_j，它在所有发生的事件中所占的比例仍然是p_j，\\我们只是把它推测为r_j，这就是为什么求r的平均熵时，p_jlog_2{(\frac{1}{r_j})}中表示所占比例的概率是p_j$

差异是非负的
$很明显当预测的概率r与p完全一致时，D(p,r)=0，而这也是平均熵差异的最小值，也就是说平均熵差异\\是非负的\\ 证明：\\ 可以把\displaystyle \frac{r_j}{p_j}看做是一个随机变量中的取值，设Y是以概率p_j取值为\frac{r_j}{p_j}的随机变量，所以\\ D(p,r)=-E(log_2(Y))\xRightarrow{由詹森不等式}-E(log_2(Y))\geq -log_2(E(Y)),同时E(Y)=\sum_{j=1}^np_j\cdot\frac{r_j}{p_j}=\sum_{j=1}^nr_j=1\\ 所以D(p,r)=-E(log_2(Y))\geq -log_2(E(Y))=-log_2(1)=0，说明错误概率比正确概率具有更高的平均熵$

得分评价
$\begin{aligned} &如果一道题，不是直接选择正确答案，而是改为为每一个选项进行概率评价，比如最有可能的选项的概率就越高，\\ &然后对于每一个选项的概率取其对数为该选项的分数，比如一个选项的分数为log_2(r_j)，而r_j就是给该选项预测的概率\\ &对于每一个选项的分数由于r_j的取值区间为[0,1]，所以log_2(r_j)的可能值得范围为[0,-\infty)，而对于一道题，\\ &所有选项的预期分数的期望便是这道题的预期得分，即\sum_{j=1}^np_jlog_2(r_j)，其中p_j为每个选项的真实概率，而一道题的\\ &真实得分为\sum_{j=1}^np_jlog_2(p_j)，两种分数的差为\sum_{j=1}^np_jlog_2(r_j)-\sum_{j=1}^np_jlog_2(p_j)=\sum_{j=1}^np_jlog_2(\frac{r_j}{p_j})很显然这个差跟库尔贝克莱布勒差异是同构的\\ &单纯从式子上看就是-D(p,r)，于是\sum_{j=1}^np_jlog_2(r_j)-\sum_{j=1}^np_jlog_2(p_j)\leq 0\implies\sum_{j=1}^np_jlog_2(r_j)\leq\sum_{j=1}^np_jlog_2(p_j)\\ &也就是说预期得分不会大于真实得分，而预期得分的最大值即是真实得分，是在r=p时取到 \end{aligned}$

3. 马尔可夫不等式，切比雪夫不等式，切尔诺夫不等式

1). 马尔可夫不等式

$对于任意随机变量X和常数a>0有\displaystyle P(|X|\geq a)\leq\frac{E|X|}{a}$

2). 切比雪夫不等式

$令X的均值为\mu，方差为\sigma^2。那么对任何一个a>0有P(|X-\mu|\geq a)\leq \frac{\sigma^2}{a^2}\\ 用c\sigma代替a，由于c>0，则有切比雪夫不等式的等价形式:P(|X-\mu|\geq c\sigma)\leq \frac{1}{c^2}$

3). 切尔诺夫不等式

$对任意随机变量X，常数a>0和t>0，有P(X\geq a)\leq \frac{E(e^{tX})}{e^{ta}}$
性质
1. $右边可以关于 t 进行优化，并给出严格上界$
2. $如果 X 的矩母函数存在，那么分子的界限就是矩母函数，且可以利用矩母函数的一些有用的性质$

4). 正态分布尾部概率的界限

$\begin{aligned} 令Z\thicksim N(0,1)。&用三种不等式去预估P(|Z|>3)的上界\\ \textcolor{blue}{马尔可夫不等式}。&已知E|Z|=\sqrt{\frac{2}{\pi}}，则P(|Z|>3)\leq \frac{E|Z|}{3}=\frac{1}{3}\cdot\sqrt{\frac{2}{\pi}}\approx0.27\\ \textcolor{blue}{切比雪夫不等式}。&P(|Z|>3)\leq \frac{1}{9}\approx 0.11\\ \textcolor{blue}{切尔诺夫不等式}。&P(|Z|>3)\xlongequal{由正态分布的对称性}2P(Z>3)\leq 2\cdot \frac{E(e^{tZ})}{e^{-3t}}=2e^{-3t}\cdot e^{t^2/2}，\\ &需要对右式2e^{-3t}\cdot e^{t^2/2}关于t求导，求得t=3时2e^{-3t}\cdot e^{t^2/2}得最小值，\\ &而这个最小值便是P(|Z|>3)的上界，将t=3代回右式得P(|Z|>3)\leq2e^{-9/2}\approx0.022 \end{aligned}$

4. 大数定律

1). 强大数定律

$在n\to \infty时，样本均值\overset{-}{X_n}收敛于真实均值\mu的概率为1。换句话说，事件\overset{-}{X_n}的概率为1$

2). 弱大数定律

$对任何\varepsilon>0，P(|\overset{-}{X_n}-\mu|>\varepsilon)\to 0,n\to \infty。这种形式的收敛也被称为依概率收敛$

5. 中心极限定理

$令X_1,X_2,X_3,\cdots是均值为\mu，方差为\sigma^2的独立同分布随机变量序列。\overset{-}{X_n}为样本均值，对于大的n，\\标准化后\displaystyle 的\overset{-}{X_n}的分布是标准正态分布。即当n\to \infty时，有\sqrt{n}(\frac{\overset{-}{X_n}-\mu}{\sigma})\to N(0,1)$

$\textcolor{blue}{中心极限定理的扩展，样本和的分布:}\\ 由\sqrt{n}(\frac{\overset{-}{X_n}-\mu}{\sigma})\to N(0,1)可以推出\overset{-}{X_n}\thicksim N(\mu,\frac{\sigma^2}{n})，而W_n=X_1+\cdots+X_n=n\overset{-}{X_n}，可以看做是\overset{-}{X_n} 尺度变换后\\的随机变量，于是E(W_n)=n\mu，Var(W_n)=n^2Var(\overset{-}{X_n})=n\sigma^2，W_n\thicksim N(n\mu,n\sigma^2)，于是证明样本和同样服从\\正态分布$
$\textcolor{blue}{特异的柯西分布}，中心极限定理的要求和弱大数定律的证明条件都是X_j的均值和方差是有限的，也就是说\\ 对于均值或方差都不存在的分布是不满足大数定律和中心极限定理的，柯西分布就是这种分布，事实上n个\\ 柯西随机变量的样本均值仍然服从柯西分布$

6. 卡方分布和t分布

1). 卡方分布

定义：
$令V=Z_1^2+Z_2^2+\cdots+Z_n^2，且Z_1,Z_2,\cdots Z_n是独立同分布与标准正态随机分布N(0,1)的随机变量，\\则称V服从自由度为n的卡方分布。记作V\thicksim \chi_n^2。也可写作V\thicksim\chi^2(v)，其中v代替n为自由度$

性质

$\displaystyle 卡方分布是伽马分布的一个特例，\chi_n^2分布是Gamma(\frac{n}{2},\frac{1}{2})分布。可以推出Z_1^2=\chi_1^2\thicksim Gamma(\frac{1}{2},\frac{1}{2})$
$\displaystyle \textcolor{blue}{概率密度函数:} {\large f(y)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}y^{\frac{n}{2}-1}e^{-\frac{y}{2}}}\quad y>0,\quad \int_0^{+\infty}{\large \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}y^{\frac{n}{2}-1}e^{-\frac{y}{2}}}dy=1$
$\textcolor{blue}{概率累积函数}:F(x)=\displaystyle \int_0^{x}{\large \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}y^{\frac{n}{2}-1}e^{-\frac{y}{2}}}dy，n为自由度$
$\displaystyle 按照伽马分布的期望和方差求法便可以求出卡方分布的期望和方差，E(V)=\frac{n}{2}/\frac{1}{2}=n,\\Var(V)=\frac{n}{2}/\frac{1}{4}=2n$
$\displaystyle由于卡方分布是伽马分布的一个特例，所以两个互相独立的卡方分布的和还是一个卡方分布，\\ \chi^2(v_1)+\chi^2(v_2)=Gamma(\frac{v_1}{2},\frac{1}{2})+Gamma(\frac{v_2}{2},\frac{1}{2})=Gamma(\frac{v_1+v_2}{2},\frac{1}{2})=\chi^2(v_1+v_2)，\\即一个自由度为v_1+v_2的卡方分布$
$根据中心极限定理，随着自由度 v 的增大，分布趋近于正态分布$
$\displaystyle 由于Gamma(a,\lambda)的矩母函数为(\frac{\lambda}{\lambda-t})^a，对于一个卡方分布而言a=\frac{n}{2}，\lambda = \frac{1}{2}，所以卡方分布的\\矩母函数为M_V(t)=(\frac{1}{1-2t})^{n/2},t<\frac{1}{2}$

$卡方分布在自由度为 1, 5, 15 时的曲线图$

2). 逆卡方分布

$令随机变量Y服从自由度为n的卡方分布，记作Y\thicksim \chi_n^2，如果令随机变量\displaystyle Z=\frac{1}{Y}，那么Z所服从的分布便是逆卡方\\分布，记作Z\thicksim \chi_n^{-2}。其概率密度函数推导如下\\ 如果设Y的概率密度函数为f(y)，Z的概率密度函数为g(z)，其中z=\frac{1}{y}，则g(z)=f(\frac{1}{z})\cdot|\frac{dy}{dz}|=f(\frac{1}{z})\cdot\frac{1}{z^2}$

$\textcolor{blue}{概率密度函数}: f(x)=\displaystyle {\large \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{-\frac{n}{2}-1}e^{-\frac{1}{2x}}}\quad0<x<\infty\quad n为自由度$
$\textcolor{blue}{概率累积函数}:若一自由度为n的卡方分布的概率累积函数为F(x)，那么相对应的自由度为n的逆卡方分布\\的概率累积函数为G(x)=1-F(\displaystyle \frac{1}{x})\quad 0<x<\infty$
$\displaystyle\textcolor{blue}{期望}:E(X)=\frac{1}{n-2}\quad \textcolor{blue}{方差}：Var(X)=\frac{2}{(n-2)^2(n-4)}$

$逆卡方分布在自由度为 30, 35, 40 时的曲线图$

3). t分布

定义
$\displaystyle 令T=\frac{Z}{\sqrt{V/n}}其中，Z\thicksim N(0,1),V\thicksim \chi_n^2，V和Z独立。那么T服从自由度为n的t分布，记作T\thicksim t_n\\ 其密度函数为f_T(t)=\frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)}(1+t^2/n)^{-(n+1)/2}$
性质

$\displaystyle E(T)=0，n>1时，Var(T)=\frac{n}{n-2}，n>2时$
$\displaystyle \textcolor{blue}{对称性},如果T\thicksim t_n，那么-T \thicksim t_n$
$\displaystyle \textcolor{blue}{t_1为柯西分布},如果n=1，那么T=\frac{Z}{|Z_1|}，由于V与Z互相独立且T具有对称性，所以此时t_1为柯西分布$
$\displaystyle\textcolor{blue}{收敛到正态分布}，当n\to\infty时，由弱大数定理\frac{V_n}{n}=\frac{Z_1^2+Z_2^2+\cdots Z_n^2}{n}\to E(Z_1^2)=1的概率为1，所以\\T(n\to \infty)\to \frac{Z}{1}=Z\thicksim N(0,1)$

$t分布在自由度为\textcolor{red}{1},\textcolor{green}{3},\textcolor{blue}{6}时的曲线图$
补充
$伽马\\分布的随机变量$
$St(x|\mu,a,b)=\int_0^\infty N(x|\mu,\tau^{-1})Gamma(\tau|a,b)d\tau$
$根据维度\\ \textcolor{blue}{一元分布}，若令t=2a,\lambda=\frac{a}{b},\eta=\frac{b}{a}\tau，则换元后分布形式可写为$
$St(x|\mu,\lambda,t)=\int_0^\infty N(x|\mu,(\eta\lambda)^{-1})Gamma(\eta|\frac{t}{2},\frac{t}{2})d\eta=\frac{\Gamma(\frac{t+1}{2})}{\Gamma(\frac{t}{2})}(\frac{\lambda}{\pi t})^{\frac{1}{2}}[1+\frac{\lambda(x-\mu)^2}{t}]^{-\frac{t+1}{2}}$
$其中\lambda是t分布的精度，\mu是均值向量，t是自由度，由于t\to \infty时t分布会逼近于一个标准正态分布N(0,1)，\\所以\mu=0,\lambda=\frac{1}{\sigma^2}=1，于是对于一维t分布最终形态便会是$
$St(x|\mu,\lambda,t)=\frac{\Gamma(\frac{t+1}{2})}{\sqrt{\pi t}\cdot\Gamma(\frac{t}{2})}[1+\frac{x^2}{t}]^{-\frac{t+1}{2}}$
$\textcolor{blue}{多元分布}，与一元情况大致相同，不过均值\mu要变为均值向量\bm{\mu}，精度\lambda要变为精度矩阵\Lambda,|\Lambda|为精度矩阵的\\行列式，同时引入平方马氏距离\Delta^2=(\bm{x}-\bm{\mu})^T\Lambda(\bm{x}-\bm{\mu})，最后D为维度，于是可得$
$St(\bm{x}|\bm{\mu},\Lambda,t)=\int_0^\infty N(\bm{x}|\bm{\mu},(\eta\Lambda)^{-1})Gamma(\eta|\frac{t}{2},\frac{t}{2})d\eta=\frac{\Gamma(\frac{t+D}{2})}{\Gamma(\frac{t}{2})}\frac{|\Lambda|^\frac{1}{2}}{(\pi t)^{\frac{D}{2}}}[1+\frac{\Delta^2}{t}]^{-\frac{t+D}{2}}$
$\textcolor{blue}{性质}，\\ E(\bm{x})=\bm{\mu}, 如果t > 1，\\cov(\bm{x})=\displaystyle \frac{t}{t-2}\Lambda^{-1} 如果t > 2$

4). 样本方差的分布

$\begin{aligned} &根据中心极限定理可知样本均值\overset{-}{X}是一个随机变量并且其分布近似于正态分布，那么样本方差的情况如何？\\ &对于独立同分布的X_1,\cdots X_n\thicksim N(\mu,\sigma^2)，样本方差S_n^2=\frac{1}{n-1}\sum_{j=1}^n(X_j-\overset{-}{X}_n)^2也是随机变量，并且\\ &\frac{(n-1)S_n^2}{\sigma^2}\thicksim \chi_{n-1}^2 \end{aligned}$