概率与统计之五

君之微

已于 2022-05-17 00:15:33 修改

阅读量137

点赞数

分类专栏：概率论文章标签：概率论机器学习人工智能

于 2022-03-06 12:40:01 首次发布

本文链接：https://blog.csdn.net/m0_58377977/article/details/123283083

版权

概率论专栏收录该内容

10 篇文章 1 订阅

订阅专栏

$\color{green}\Large\textbf{概率与统计之五}$
文章为一些读书笔记，原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著，案例讲解和讲述证明是本书的一大特点，教给人们的不只是一些概率论的概念和公式，而是思考问题的思维方式和策略。不过就是书里的错印有点多，需要边看边改。
_(:з」∠)

一. 变换

1. 变量变换公式

关于随机变量的光滑的可逆的变换，可以用变量变换公式处理

$\textcolor{blue}{离散情形:}\displaystyle P(g(X)=y)=\sum_{x:g(x)=y}P(X=x)\xRightarrow{如果y=g(x)为一一映射} P(g(X)=y)=P(X=g^{-1}(y))$
$\textcolor{blue}{连续情形:}对于连续情形而言，现在只考虑g是严格递增或递减的情况，其他情况过于复杂$
$\textcolor{blue}{连续情形，一维空间的変量変换:}令X为一随机变量，同时Y=g(X)\\ 推导：\displaystyle F_{g(x)}(y)=P(g(X)\leq y)=P(X\leq g^{-1}(y))=F_X(g^{-1}(y))\xRightarrow{等号左右关于y求导}f_Y(y)=f_X(x)(g^{-1}(y))^{'}=f_X(x)\frac{1}{g(x)^{'}} = f_X(x)|\frac{dx}{dy}|$
$\textcolor{blue}{连续情形，多维空间的変量変换:}令X=(X_1,X_2,\ldots,X_n)为一随机向量，同时Y=g(X)\\ 推导：\displaystyle F_{g(x)}(Y)=F_X(g^{-1}(Y))\xRightarrow{对随机向量Y求导}f_Y(y_1,y_2,\ldots)=f_X(x_1,x_2,\ldots)|\frac{\partial(x_1,x_2,\ldots)}{\partial(y_1,y_2,\ldots)}|\\关于随机向量的求导为求雅克比行列式的绝对值$
$不难看出无论是一维空间还是多维空间的变换，对于连续情形而言，求概率便是求空间中的面积或体积，\\ 而变量变换求概率其实就是\textcolor{blue}{利用换元法求定积分或多元积分，对积分形式求导变得到了变换后的概率密度函数，}\\ 另外关于求导或者求雅克比行列式，\textcolor{red}{分子为Y=g(X)中的自变量随机向量，分母为因变量随机向量}$

1). Box-Muller算法

二维情形下的変量変换中有一个比较有名的例子便是 $B o x - M u l l e r$ 算法，其中关键的便是类似于二元积分中的极坐标换元法
$\color{blue}令U\sim Unif(0,2\pi),T\sim Expo(1),且T与U相互独立。定义X=\sqrt{2T}cos\,U,Y=\sqrt{2T}sin\,U。\\求(X,Y)的联合概率密度函数。X与Y是相互独立吗？其边缘分布是什么？$
$\begin{aligned} &由于U,T相互独立,所以其联合概率密度函数为f_{U,T}(u,t)=\frac{1}{2\pi}e^{-t}\quad u\in (0,2\pi),t>0\\ &很明显由X^2+Y^2=2T(cos^2U+sin^2U)=2T可知(\sqrt{2T},U)是(X,Y)在极坐标下的表示方法。\\ &而且又因为可以从(X,Y)得到(T,U)，所以这种变换是可逆的，可以应用便变换公式。\\ &\displaystyle 首先求雅可比行列式的绝对值|\frac{\partial(u,t)}{\partial(x,y)}|=1/|\frac{\partial(x,y)}{\partial(u,t)}|=1 / \begin{vmatrix}-\sqrt{2t}sin\,u&\frac{1}{\sqrt{2t}cos\,u}\\\sqrt{2t}cous\,u&\frac{1}{\sqrt{2t}sin\,u}\end{vmatrix}=1/1=1\\ &接下来列出变量变换式\\ &f_{X,Y}(x,y)=f_{U,T}(u,t)\cdot |\frac{\partial(u,t)}{\partial(x,y)}|=\frac{1}{2\pi}e^{-t}\cdot 1=\frac{1}{2\pi}e^{-t}=\frac{1}{2\pi}e^{-\frac{1}{2}(x^2+y^2)}=\frac{1}{\sqrt{2\pi}}e^{\frac{-x^2}{2}}\cdot \frac{1}{\sqrt{2\pi}}e^{\frac{-y^2}{2}}\\ &很明显f_{X,Y}可以分解成g(x)h(y)一个x的函数乘以一个y的函数的形式，所以X，Y是相互独立的，\\ &又\int_{-\infty}^{+\infty}g(x)dx=1,\int_{-\infty}^{+\infty}h(y)dy=1，皆为有效概率密度函数，所以X,Y的边缘概率密度函数便是\\ &标准正态分布概率密度函数,X,Y皆是服从于标准正态分布的随机变量\\ &\color{red}至于有些教材上表示的该算法是由两个标准均匀分布随机变量U_1,U_2构成标准正态分布的说法其实也很好理解，\\ &\color{blue}无外乎是将\begin{cases}X=\sqrt{2T}cos\,U\\Y=\sqrt{2T}sin\,U\end{cases}\xRightarrow{变为}\begin{cases}X=\sqrt{-2 * ln(U_1)}cos(2\pi U_2)\\ Y=\sqrt{-2 * ln(U_1)}sin(2\pi U_2)\end{cases}\xRightarrow{也就是}\begin{cases}T=-ln(U_1)\\ U = 2\pi U_2\end{cases}\\ &对于2\pi U_2 = U \sim Unif(0,2\pi)这很好理解，主要是对于T=-ln(U_1)的理解。这是因为根据均匀分布的普遍性，\\ &将一个随机变量代入其本身的累积分布函数公式，将得到一个标准均匀分布变量。而T\sim Expo(1)，服从指数分布，\\ &于是一个标准均匀分布变量Z=1-e^{-T}\implies T= -ln(1-Z)，而1-Z同样是一个标准均匀分布变量，\\ &所以设U_1=1-Z，便可以证明由两个标准均匀分布变量U_1,U_2可以构成标准正态分布变量的说法 \end{aligned}$

2. 卷积

在这里卷积代表的是独立随机变量的和。也就是设两个相互独立的随机变量 $X, Y$ 来求他们的和变量 $T = X + Y$ 的分布情况。其实就是利用全概率公式。罗列出所有 $X_i+Y_j=T$ 的事件，并把每一种事件的概率 $P(X_i)P(Y_j=T-X_i)$ 全部加起来即可，由于 $X_i+Y_j$ 的值始终为 $T$ 所以才称之为卷积。只不过离散跟连续的情形不一样，一种是概率质量函数，一种是概率密度函数。

$\displaystyle\textcolor{blue}{离散情况:}P(T=t)=\sum_xP(Y=t-x)P(X=x)=\sum_yP(X=t-y)P(Y=y)$
$\displaystyle\textcolor{blue}{连续情况:}F_T(t)=P(X+Y \leq t)=\int_{-\infty}^{+\infty}P(Y\leq t-x)f_X(x)dx=\int_{-\infty}^{+\infty}F_Y(t-x)f_X(x)dx\\ 根据含参变量额定积分，积分变量为参变量时积分与导数顺序可以互换的原则\\F_T(t)=\int_{-\infty}^{+\infty}F_Y(t-x)f_X(x)dx\xRightarrow{左右对t求导}f_T(t)=\int_{-\infty}^{+\infty}f_Y(t-x)f_X(x)dx$

3. 贝塔分布

贝塔分布是定义在 $(0, 1)$ 区间上的连续分布，他是均匀分布 $U n i f (0, 1)$ 的推广形式，允许其概率密度函数在 $(0, 1)$ 上非恒定。表达式为 $X\sim Beta(a,b)$
相关性质：

$\displaystyle \textcolor{blue}{概率密度函数:}f(x)=\frac{1}{\beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1,a>0,b>0\qquad \int_0^1\frac{1}{\beta(a,b)}x^{a-1}(1-x)^{b-1}dx=1$
$\textcolor{blue}{贝塔分布的归一化常数:}\\ \begin{cases} \displaystyle \int_0^1{n \choose k}x^k(1-x)^{n-k}dx&\displaystyle=\frac{1}{n+1}\\ \displaystyle\int_0^1x^{a-1}(1-x)^{b-1}dx&\displaystyle=\beta(a,b)\end{cases} \xRightarrow{将k=a-1\ ,n=a+b-2代入上式,并联立方程组可求得}\displaystyle\beta(a,b)=\frac{(a-1)!(b-1)!}{(a+b-1)!}\\ 于是可得贝塔分布的归一化常数为\frac{1}{\beta(a,b)}=\frac{(a+b-1)!}{(a-1)!(b-1)!}，另外该常数的另一种形式为\\ \frac{1}{\beta(a,b)}=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}，这是涉及到使用两个独立的伽马变量来表示一个贝塔变量时使用$
$\textcolor{blue}{期望与方差:}\displaystyle E(B)=\frac{a}{a+b},E(B^2)=\frac{a(a+1)}{(a+b)(a+b+1)},E(B^k)=\frac{a(a+1)\cdots(a+k-1)}{(a+b)(a+b+1)\cdots(a+b+k-1)}，\\Var(B)=\frac{ab}{(a+b)^2(a+b+1)}$
$\textcolor{blue}{概率密度曲线特征:}$
$\begin{aligned} &a=1|b=1，分布曲线为斜率不为零的直线，若a=b=1则Beta(1,1)=Unif(0,1)\\ &a<1,b<1，曲线为U型开口朝上；a>1,b>1曲线开口朝下\\ &a=b\neq1，则曲线关于1/2对称，a > b，向大于1/2方向偏移，a< b，向小于1/2方向偏移 \end{aligned}$
$\textcolor{blue}{案例:}贝塔分布的案例有很多，一个常用的案例就是用一个贝塔分布变量来表示未知概率，也就是说，\\可以用贝塔分布给未知概率定义概率。由此\textcolor{blue}{引出贝塔分布与二项分布的共轭性}$
$\textcolor{blue}{贝塔分布与二项分布的共轭性}:\\ \textcolor{blue}{基本逻辑}\\ 假设要推断一个试验每次测试的成功率p。当然最简单的方法就是做大量测试n，统计其成功次数k和\\ 失败次数n-k，便可以大体估算出该试验每一次的成功率。n越大，则估计的p就越接近真实。\\ 那么这个过程的能否进行数学抽象化的实现，一般常用的办法是利用贝叶斯准则的贝叶斯推断。\\ 把所有未知量都视作随机变量，再用贝叶斯准则推出p的随机分布。既然使用到了贝叶斯准则，\\ 那么就需要给每一个变量赋予一个随机分布而使之成为一个随机变量，\\ 对于二项分布试验的成功次数k，很显然可以定义它是一个服从二项分布的随机变量X\sim Bin(n,p)，\\ 现在的问题在于试验成功概率p是一个服从什么分布的随机变量。根据已经论证的结果p服从的是贝塔分布。\\ \textcolor{blue}{分布说明}\\ \textcolor{blue}{一}\quad假设一个概率值p为一随机变量，其先验分布为贝塔分布，即p\sim Beta(a,b)，\\ \textcolor{blue}{二}\quad以p为一次伯努利试验的实际成功率，n为总试验次数，于是在该条件下成功次数的随机变量为\\ \qquad X|p\sim Bin(n,p)，服从二项分布。\\ \textcolor{blue}{三}\quad现在已经知道了一个边缘分布p\sim Beta(a,b)和一个条件分布X|p\sim Bin(n,p)，\\ \qquad\displaystyle那么便可以构造一个联合分布:f_X,p(x,p)=P(X=k|p)f(p)，这是一个混合分布\\ \qquad\displaystyle并可以求出X的边缘概率质量函数P(X=k)=\int_0^1P(X=k|p)f(p)dp\\ \qquad\displaystyle以及在n次试验后，成功次数为k的概率P(X=k|p)={n \choose k}p^k(1-p)^{n-k}\\ \textcolor{blue}{四}\quad\displaystyle 在弄明白了所有条件后，便可利用贝叶斯准则求出q的条件概率密度函数，\\ \quad \displaystyle f(p|X=k)=\frac{P(X=k|p)f(p)}{P(X=k)}\rArr f(p|X=k) \propto p^{a+k-1}(1-p)^{b+n-k-1}\rArr p|X=k \sim Beta(a+k,b+n-k)\\ \qquad\displaystyle 也就是说p的后验分布同样服从于贝塔分布。由于p的先验后验分布全部服从贝塔分布，\\ \qquad\displaystyle 且在给定p的条件下数据服从二项分布，于是称贝塔分布为二项分布的共轭先验分布\\ \textcolor{blue}{五}\quad关于Beta(a,b)和Beta(a+k,b+n-k)中参数的解释，\\ \qquad\displaystyle a为事先观察的成功试验次数，b为事先观察的失败试验次数，而在进行了n次试验后，\\ \qquad\displaystyle 参数变为a+k，即试验的累积成功次数，以及b+n-k，即试验的累积失败次数。\\ \textcolor{blue}{六}\quad使用贝塔分布的意义。一般而言随着我们试验次数增多，收集到的数据积累，会慢慢更新信息:\\ \qquad\displaystyle 即\textcolor{blue}{从先验分布计算得到后验分布，然后用后验分布替代旧的先验分布从而得到新的先验分布，\\ \qquad\displaystyle 再用新的先验分布计算得到新的后验分布，如此循环往复}。\\ \qquad\displaystyle 通过上面的证明我们可以得知，对于一个二项分布的成功概率p，它的这些更新信息的循环过程\\ \qquad\displaystyle是被包含在贝塔分布族中进行的。我们只需要通过试验不断更新贝塔分布中的两个参数，\\ \qquad\displaystyle 即试验的历史累积成功次数和试验的历史累积失败次数，便可以从贝塔分布中生成一个符合试验结果的成功概率p$

4. 伽马分布

伽马分布是定义在正实数轴上的一个连续分布；它是指数分布的推广。若一个指数随机变量表示在无记忆条件下首次成功的等待时间，则伽马分布的随机变量表示多次成功的总等待时间。也就是说它同样是可以通过泊松过程来得到。至于伽马分布的概率密度表达式部分是基于伽马函数 $\displaystyle \Gamma(a)=\int_0^{+\infty}x^ae^{-x}\frac{dx}{x},a>0$ 而构成的。表达式为 $X\sim Gamma(a,\lambda)$
相关性质为

$\displaystyle \textcolor{blue}{概率密度函数:} f(y)=\frac{1}{\Gamma(a)}(\lambda y)^ae^{-\lambda y}\frac{1}{y}\quad y>0,a>0, \lambda > 0\quad \int_0^{+\infty}\frac{1}{\Gamma(a)}(\lambda y)^ae^{-\lambda y}\frac{1}{y}dy=1 \\a可以看做是等待成功的次数，\lambda则与泊松分布，指数分布中的定义一致，为成功速率。\\ 当然这不是绝对，在共轭案例中又有别的定义$
$\displaystyle \textcolor{blue}{伽马函数的几个重要性质:}\\ 一\quad\Gamma(s)=\int_0^{+\infty}e^{-x}x^{s-1}dx,s>0\\ 二\quad\Gamma(a+1)=a\Gamma(a).对所有a>0成立\\ 三\quad\Gamma(n)=(n-1)!，n为正整数\\ 四\quad\Gamma(\frac{1}{2})=\sqrt{\pi}\quad \Gamma(1)=1$
$\textcolor{blue}{期望与方差:}若X\sim Gamma(a,1)\\ \displaystyle E(X)=\frac{\Gamma(a+1)}{\Gamma(a)}=a,E(X^2)=\frac{\Gamma(a+2)}{\Gamma(a)}=(a+1)a，E(X^n)=\frac{\Gamma(a+n)}{\Gamma(a)}=a(a+1)\cdots(a+n-1)\\ Var(X)=a\\ 若Y\sim Gamma(a,\lambda)，E(Y)=\frac{a}{\lambda},E(Y^n)=\frac{1}{\lambda^n}\cdot\frac{\Gamma(a+n)}{\Gamma(a)}，Var(Y)=\frac{a}{\lambda^2}$
$\textcolor{blue}{指数分布与伽马分布:}令X_1,\ldots,X_n独立同分布与指数分布Expo(\lambda),则X_1+\cdots+X_n\sim Gamma(n,\lambda)\\ 简单点说就是几个独立同分布的指数变量的和服从伽马分布。如果n=1的话，Gamma(1,\lambda)即为指数分布。\\ 直观来讲，伽马分布Gamma(n,\lambda)为第n次试验成功时所需要等待的时间变量的分布，而两次成功试验的间隔\\ 时间变量就是一个指数分布，由于指数分布的无记忆性，这些间隔变量都是独立同分布的为Expo(\lambda)，\\ 很明显把这些时间间隔都加起来就是总共等待的时间，所以独立同分布的指数变量的和，服从伽马分布$
$\textcolor{blue}{伽马变量的和:}\\ 若X\sim Gamma(a,\lambda),Y\sim Gamma(b,\lambda)相互独立，其中a和b是整数，则X+Y\sim Gamma(a+b,\lambda)。\\ 这个由第四条很容易证明，X，Y可以表示为一系列相同独立同分布的指数变量的和，而所有变量的\lambda相同，\\ X为a个Expo(\lambda)相加，Y为b个Expo(\lambda)相加，所以两拨指数变量的和仍然服从伽马分布，并且参数为a+b和\lambda$
$\textcolor{blue}{伽马分布与负二项分布:}类似于指数分布和几何分布。伽马分布变量是完成n次成功试验时所等待的时间，\\ 而负二项分布变量是完成n次成功试验时所经历的所有试验次数，如果每次试验测试的足够快两次试验间的间隔足够短，\\ 那么就可以用试验次数近似表示试验时间，也就是说极限负二项分布近似于伽马分布$
$\textcolor{blue}{伽马分布与泊松分布的共轭性:}与之前贝塔分布是二项分布概率未知的共轭性先验一样，伽马分布是一个泊松分布速率未知的共轭先验。\\ \displaystyle对于一个未知速率\lambda使其先验分布服从伽马分布且\lambda \sim Gamma(r_0,b_0)\\ \displaystyle对试验观察t时间，并且记录这期间的成功次数Y，则Y的条件分布服从泊松分布，即Y=y|\lambda\sim Pois(\lambda t)\\ \displaystyle由Y的条件分布和\lambda的边缘分布构成一个联合分布f_{Y,\lambda}(y,\lambda)=P(Y=y|\lambda)f(\lambda)，\\ \displaystyle并求出Y的边缘概率质量函数P(Y=y)=\int_0^{+\infty}P(Y=y|\lambda)f(\lambda)d\lambda。\\ 于是基于上面的条件我们可以利用贝叶斯准则求出\lambda的后验概率密度函数和后验分布\\ f(\lambda|Y=y)=\frac{P(Y=y|\lambda)f(\lambda)}{P(Y=y)}\rArr f(\lambda|Y=y) \propto e^{-(b_0+t)\lambda}\lambda^{r_0+y}\frac{1}{\lambda}\rArr \lambda|Y=y \sim Gamma(r_0+y,b_0+t)\\ 即\lambda的后验分布依然服从伽马分布，因此伽马分布是泊松分布的共轭先验\\ \textcolor{blue}{解释一下伽马分布中的参数}，r_0为事先观察到的在b_0时间内成功的次数，随后在经过t时间后有观察到的成功次数为y\\ 则累计的成功次数为r_0+y，累积的观察时间为b_0+t。\\ 由此我们可以知道\textcolor{blue}{使用伽马分布的意义}，通过泊松分布试验收集数据并通过贝叶斯准则不断更新未知速率\lambda的先验后验的循环过程\\ 是被包含在伽马分布族中进行的，也就是说我们只需要更新伽马分布的两个参数，历史累积成功次数和历史累积观察时间，\\ 就可以从更新后的伽马分布中生成一个符合试验结果的成功速率\lambda并加以使用$
$\textcolor{blue}{伽马分布与泊松分布的共轭性的补充说明:} 可以看出在泊松分布的共轭先验分布中，伽马分布的第二个参数已不再是成功速率\lambda而是历史累积观察时间，这是需要注意的\\ \displaystyle 另外E(\lambda|Y=y)=\frac{r_0+y}{b_0+t},\quad Var(\lambda|Y=y)=\frac{r_0+y}{(b_0+t)^2}$

5. 贝塔分布与伽马分布的关系

$\displaystyle 令X\sim Gamma(a,\lambda),Y\sim Gamma(b,\lambda),X与Y相互独立，T=X+Y，W= \frac{X}{X+Y}\\ 则T \sim Gamma(a+b,\lambda)，W\sim Beta(a,b)，且T与W相互独立，E(W)=\frac{a}{a+b}$

6. 顺序统计量

$将n个随机变量X_1,\cdots,X_n由小到大进行排序，得到变换后的随机变量序列X_{(1)},\cdots,X_{(n)}，X_{(j)}表示变量在序列中排第j位。\\则变换后的随机变量序列被称为顺序统计量$

$\textcolor{blue}{顺序统计量的累积分布函数:}令X_1,\cdots,X_n是独立同步分布的连续性随机变量序列，其累积分布函数为F，\\则第j个\displaystyle顺序统计量X_{(j)}的累积分布函数为P(X_{(j)}\leq x)=\sum_{k=j}^n{n \choose k}F(x)^k(1-F(x))^{n-k}$
$\textcolor{blue}{顺序统计量的概率密度函数:}令X_1,\cdots,X_n是独立同步分布的连续性随机变量序列，其累积分布函数为F，概率密度函数为f\\ \displaystyle则第j个顺序统计量X_{(j)}的概率密度函数为f_{X_{(j)}}(x)=n{n-1 \choose j-1}f(x)F(x)^{j-1}(1-F(x))^{n-j}\\ 从式子结构可以看出，一般的顺序统计量不会服从一个一致的分布，但服从标准均匀分布的顺序统计量的联合分布是个例外$
$\textcolor{blue}{均匀分布中的次序统计量:}令U_1,\cdots,U_n是独立同步分布于U(0,1)的随机变量。那么当0\leq x\leq 1时，\\ \displaystyle f(x)=1，且F(x)=x，因此U_{(j)}的概率密度函数为f_{U_{(j)}}(x)=n{n-1 \choose j-1}x^{j-1}(1-F(x))^{n-j}\\ \displaystyle 这正是Beta(j,n-j+1)的概率密度函数。因此U(j)\sim Beta(j,n-j+1),且E(U_{(j)})=\frac{j}{n+1}$

二. 条件期望

1. 两种条件期望

1). 基于给定事件的条件期望

设A是发生概率大于0的事件，则在给定A的条件下
$\begin{cases} \displaystyle E(Y|A)&=\displaystyle\sum_yyP(Y=y|A)&Y是离散型变量\\ \displaystyle E(Y|A)&=\displaystyle\int_{-\infty}^{+\infty}yf(Y=y|A)dy&Y是连续型变量\\ \displaystyle f(y|A)&=\displaystyle\frac{P(A|Y=y)f(x)}{P(A)}&Y是连续型变量\\ \end{cases}$
简单来说就是 $A$ 的状态如何，是否发生已经给定了，即 $A$ 变量的值已知，所以 $E (Y ∣ A)$ 是一个常数
样本法
$\displaystyle E(Y)\approx\frac{1}{n}\sum_{j=1}^ny_j\qquad E(Y|A)\approx\frac{\displaystyle\sum_{j=1}^ny_jI_j}{\displaystyle\sum_{j=1}^nI_j}\\ 做n次试验，y_j表示每一次事件Y的状态，I_j为表示事件A是否发生的示性随机变量，1为发生，0为没发生$

2). 基于给定随机变量的条件期望

$对于随机变量 X 而言， E (Y ∣ X) 实质为 X 的函数 g (X)$
$在已知 X 的情况下，某种意义上 E (Y ∣ X) 是 Y 的最佳预测$
$对于 2 的应用最多的就是线性回归和曲线拟合，拟合出来的直线或曲线其实就是一个关于 X 的函数，是 Y 关于 X 的条件期望$
$\begin{cases} E(Y|X=x)&\displaystyle =\sum_yyP(Y=y|X=x)&Y是离散型变量\\ E(Y|X=x)&\displaystyle =\int_{-\infty}^{+\infty}yf_{Y|X}(y|x)dy&Y是连续型变量\\ \end{cases}$

2. 条件期望的性质

$如果 X 与 Y 相互独立则 E (Y ∣ X) = E (Y)$
$对于X的任意函数h,E(h(X)\,Y|X)=h(X)\,E(Y|X)$
$E(Y_1+Y_2|X)=E(Y_1|X)+E(Y_2|X),对于常数c,E(cY|X)=cE(Y|X)$
$\color{blue}亚当定律：E(E(Y|X))=E(Y)，这是连接条件期望与非条件期望的关键，另外E(E(Y|Z,X)|Z)=E(Y|X)$
$投影解释：随机变量Y-E(Y|X)是用X预测Y的残差。他与任意函数h(X)是不相关的。\\ 用一个三维空间的直线投影到一个平面上的例子去类比就好。也就是说E(Y|X)是在h(X)平面内最接近Y的函数了$

3. 条件方差

在给定 $X$ 的条件下， $Y$ 的条件方差为 $Var(Y|X)=E((Y-E(Y|X))^2|X)\implies Var(Y|X)=E(Y^2|X)-(E(Y|X))^2$
夏娃定律
$Var(Y)=E(Var(Y|X))+Var(E(Y|X))，很明显夏娃定律是将非条件方差与条件方差和条件期望结合起来\\的定律其中我们称E(Var(Y|X))为\textcolor{blue}{组内变动}，Var(E(Y|X))为\textcolor{blue}{组间变动}，也就是说把一个X的值看做分组的标准，\\ Var(Y|X=x_j)很显然是一个组内的Y值波动的表示，其后求均值E(Var(Y|X))只是这个波动的均数\\ 而Var(E(Y|X))先求的是组内的期望均值，然后看这个值在各个组间的波动，即求Var(E(Y|X))$

4. 线性回归

线性回归模型使用单个解释变量 $X$ 来预测响应变量 $Y$ ,并且假设 $Y$ 的条件期望与 $X$ 呈线性关系即 $E (Y ∣ X) = a + b X$ ，或者说
$E(Y|X)=a+bX+\varepsilon,其中\varepsilon是一个随机变量称为误差，E(\varepsilon|X)=0$ ，显然我们想要求出 $E (Y ∣ X)$
就需要求出 $a$ 斜率和 $b$ 截距， $\displaystyle b=\frac{Cov(X,Y)}{Var(X)}，a=E(Y)-bE(X)=E(Y)-\frac{Cov(X,Y)}{Var(X)}\cdot E(X)$