数字特征和特征函数

最新推荐文章于 2024-11-21 13:13:53 发布

Clouze

最新推荐文章于 2024-11-21 13:13:53 发布

阅读量854

点赞数

分类专栏： MATH 文章标签：概率论矩阵线性代数

本文链接：https://blog.csdn.net/Clouze/article/details/108470732

版权

MATH 专栏收录该内容

4 篇文章

订阅专栏

概率论第四章复习。

文章目录

数学期望

含义

时间平均： $\dfrac{a_1+\cdots+a_n}{n}$ ，独立重复试验，n次观测值的算术平均。

空间平均：在空间的不同位置 $x_i$ ，在这个位置的概率or权重： $p_i$ ，期望体现为 $\sum_kx_kp_k$ .

这两种含义是相等的：
$\dfrac{1}n(a_1+\cdots+a_n) = \sum_kx_kp_k$

离散型

定义

定义4.1.1 若 $\sum_k|x_k|p_k<\infty$ ，则称 $\sum_kx_kp_k$ 为 $X$ 的数学期望，记为 $E X$ .

如果级数不绝对收敛，都称期望不存在。不过可以推广定义：如果级数的正部和负部不全为无穷，则可以定义广义的数学期望。这样保证了期望不是一个不定式（无穷-无穷）。

期望本质上是一个分布的数字特征，从离散型的角度来看，分布列确定了，期望就是确定的。

举例

Bernoulli分布

$E_{1_A}=P(A)$ .

这边考虑同分布的随机变量：示性函数。

Possion分布

首先说明，泊松分布的期望一定是有良定的，因为随机变量取非负整数值，负部级数为0。
$e^{-\lambda}\sum_{k=1}^\infty k\dfrac{\lambda^k}{k!} = \lambda e^{-\lambda}\sum_{k=1}^\infty\dfrac{\lambda^{k-1}}{(k-1)!}=\lambda$

非负随机变量的期望

引出一个取非负整数值随机变量的期望求法：
$\sum_{k=0}^\infty kp_k = \sum_{k=1}^\infty\sum_{n=1}^k p_k = \sum_{n=1}^\infty\sum_{k=n}^\infty p_k = \sum_{n=1}^\infty P(X\ge n) =\sum_{n=0}^\infty P(X>n)$

几何分布

$\sum_{n=0}^\infty (1-p)^n = \frac1p$

连续型

定义4.1.2 若 $\int|x|p(x)dx<\infty$ ，则称 $\int xp(x)dx$ 为 $X$ 的数学期望，记为 $E X .$

同样可以引出推广的数学期望。

非负随机变量的期望

先证明一个引理： $\lim_{x\to\infty}xG(x)=0$
$\int_x^\infty yp(y)dy \ge x\int_x^\infty p(y)dy =xG(x)$
由夹逼原理， $\lim_{x\to0}xG(x)=0$ .

那么
$\int_0^\infty xp(x)dx = \int_0^\infty x d(-G(x)) = -xG(x)|_{0}^\infty +\int_0^\infty G(x)dx=\int_0^\infty G(x)dx$

指数分布

若 $X\sim Exp(\lambda),$
$\int_0^\infty e^{-\lambda x}dx = \frac1\lambda$

柯西分布

$p(x)-\frac1\pi \frac{1}{x^2+1}$ 期望不存在。

一般情形

介绍性质。我们直接使用尾分布函数去定义非负随机变量的期望：
$\int_0^\infty G(x)dx$

定义4.1.3 若 $X\ge0$ ，称 $\int_0^\infty P(X>x)dx$ 为 $X$ 的数学期望，记为 $E X$ .如果 $EX^+,EX^-$ 不全为无穷，则称 $EX:=EX^+-EX^-$ 为 $X$ 的期望。

如果 $X$ 有界： $P(|X|\le M)=1$ ，那么期望一定存在（考虑定义）。

期望是分布的数字特征：直接利用尾分布函数。

函数的期望

离散型： $\sum_k f(x_k)p_k,\ Ef(\overrightarrow X) = \sum_k f(\overrightarrow x_k)p_k$ .

连续型： $\int f(x)p(x) dx, Ef(\overrightarrow X) = \int f(\overrightarrow x)p(\overrightarrow x)d\overrightarrow x$ .

数学期望的性质

由期望的时间平均含义：

a. X $\equiv c$ ，则 $EX\equiv C$ .

b. 单调性。 $X\ge Y$ ，则 $EX\ge EY$ .

c. 线性。 $E (a X) = a E X, E (X + Y) = E (X) + E (Y)$ .
若 $X\ge 0,$ 且 $E X = 0$ ，则 $X = 0$
$\ge EX1_{X>\frac1n}\ge \frac1nP(X\ge\frac1n),P(X\ge\frac1n)\ge P(X>0)$
若 $X\ge 0,EX<\infty,$ 则
$\lim_{x\to\infty}xG(x) = \lim_{x\to\infty} EX1_{\{X>x\}} = 0$
第二个等号：
$EX1_{\{X>x\}} = \int_{0}^\infty P(X1_{\{X>x\}}> y) dy = \int_0^\infty P(X>x,X>y)dy = \int_0^x P(X>x)dy+\int_x^\infty P(X>y)dy \to xG(x)=0$
相互独立，则 $E (X Y) = E (X) E (Y)$ .

证明很简单，考虑函数 $f (X, Y) = X Y$ 的数学期望。
Jensen不等式：对任意凸函数 $f$ ，有 $Ef(x)\ge f(EX).$ 比如 $E|X|\ge|EX|,EX^2\ge(EX)^2$ .

正态分布的期望

标准正态的期望很简单。由于密度函数是偶函数，所以均值为0.

再次证明一个服从 $N(\mu,\sigma^2)$ 的普通正态变量， $X^*=\dfrac{X-\mu}{\sigma}$ 为一个标准正态变量。利用变换公式：
$p_{X^*}(y) = p_{X}(\sigma y + \mu)\frac{1}\sigma = \frac{1}{\sqrt{2\pi}}e^{-\dfrac{y^2}{2}}$
由期望的线性， $\mu$ .更一般地，任意 $W : = a + b X$ 都是正态变量，即正态变量的非退化线性变换还是正态变量。

随机数目的期望

$X=1_{A_{1}}+\cdots+1_{A_{n}},EX = \sum_{i=1}^n P(A_i)$

可以把二项分布看做 $n$ 次独立重复试验，每次试验的结果就是一个参数为 $p$ 的伯努利分布（示性函数），于是 $E X = n p .$

对于比较难以直接求解的超几何分布的期望，也可以这样看：第 $i$ 次抽签看做试验 $A_i$ ，抽中次品为1，否则为0。由于抽签与顺序无关，抽中与否的概率都相等，因此 $E1_{A_i} = p = \dfrac M N$ 。从而 $\dfrac{nM}{N}$ .

可交换随机变量的期望

考察服从 $U (0, 1)$ 的顺序统计量 $U_{(1)},\cdots,U_{(n)}$ 生成的随机变量 $Y_1,\cdots,Y_{n+1}.$ 则由之前的结论， $(Y_1,\cdots,Y_{n+1})$ 是可交换随机变量。于是对它们同时作用一个函数
$f(\overrightarrow x) := \dfrac{x_1}{\sum_i x_i}$
则
$E\dfrac{Y_1}{Y_1+\cdots+Y_{n+1}} = \mu$
期望存在是因为它有界。由可交换性，
$E\dfrac{Y_i}{Y_1+\cdots+Y_{n+1}} = \mu,i = 1,2,\cdots,n+1$
因此
$(n+1)\mu = E\dfrac{\sum_i Y_i}{\sum_i Y_i}=1\Rightarrow \mu = \frac{1}{n+1}$
而且
$Y_1+Y_2+\cdots+Y_{n+1} = 1$
故
$EY_i = \frac1{n+1},E(U_{(n)} - U_{(1)}) = Y_2+\cdots+Y_n = \dfrac{n-1}{n+1}.$

最优预测1

令 $f(x) = E(X-x)^2$ ，则 $minf(x) = f(EX) = E(X-EX)^2 = EX^2-(EX)^2$ .

$s o l u t i o n .$ 假设 $a$ 是 $f (x)$ 的最小值点。
$f(x) = E(X-a+a-x)^2 = E(X-a)^2 + (a-x)^2 + 2(a-x)E(X-a)$
$if\ f(x)\ge f(a) = E(X-a)^2,\ then\ $
$(a-x)^2 + 2(a-x)E(X-a) \ge 0, \forall x \in R$
则由二次函数的性质， $E (X - a) = 0 .$ 即 $E X = a$ .

代入可得， $f(x)\ge f(EX) = EX^2-(EX)^2$ .

方差、相关系数和矩

方差

定义

定义4.2.1 4.2.5 假设 $EX^2$ 存在，则称 $E(X-EX)^2$ 为 $X$ 的方差。（二阶矩存在则一阶矩存在），记为 $V a r (X) o r D (X)$ ，称 $\sigma_X:=\sqrt{var(X)}$ 为 $X$ 的标准差/均方差。称 $EX^k,E(X-EX)^k,Ee^{aX}$ 为（原点）矩/中心矩/指数矩。

方差同样是分布的数字特征，确定了分布，就确定了方差。

方差的含义指的是：权重的分散程度。如果 $v a r (X) = 0$ ，则 $X\overset{a.s.}=EX$ .

在取非负整数值的情况，我们常常这样计算方差： $var(X) = EX^2-(EX)^2$ .

作线性变换的过程中， $var(aX+b) = E(aX+b-aEx-b)^2 = a^2E(X-EX)^2$ .

任何随机变量都可以通过标准化化为均值为0，方差为1的标准变量： $X^*=\dfrac{X-\mu}{\sigma}.$

举例

Bernoulli分布： $X^2 = X, var(X) = EX^2-(EX)^2 = p-p^2 = pq.$
随机数目： $1_{A_1}+\cdots+1_{A_n},X^2 = \sum_{i,j}1_{A_iA_j},EX^2 = \sum_{i,j}P(A_iA_j)$
泊松分布： $\sum_{k=2}^n k(k-1)e^{-\lambda}\dfrac{\lambda^k}{k!} = e^{-\lambda}\lambda^{2}e^\lambda = \lambda^2$ .

故 $EX^2 = \lambda^2+\lambda,var(X) = \lambda.$
均匀分布： $X^2 = \int_0^1 x^2dx = \frac13,var(X) = \frac1{12}$ .
正态分布：
$EZ^2 = \frac{2}{\sqrt{2\pi}}\int_0^\infty x^2e^{-\frac{x^2}{2}}dx = \frac{2}{\sqrt{2\pi}}\int_0^{\infty}(-x)de^{-\frac{x^2}{2}}=\frac{2}{\sqrt{2\pi}}\int_0^\infty e^{-\frac{x^2}{2}}dx=1.\\ var(Z) = 1.$
$X\sim N(\mu,\sigma),EX=E(\sigma Z+\mu)=\mu,varX=\sigma^2.$

不等式们

1. Chebyshev Inequality

$P(|X-EX|\ge \epsilon)\le \dfrac{var X}{\epsilon^2},\forall \epsilon>0.$

令 $\{|X-EX|\ge \epsilon\}$ 。目标：寻找 $Y\ge 1_A$ ，则 $EY\ge P(A).$

随便找一个非负的 $Y$ ，当 $A$ 发生的时候， $Y\ge 1$ 。可以找 $\dfrac{(X-EX)^2}{\epsilon^2},\dfrac{(X-EX)^4}{\epsilon^4}$ .

利用这种方式估计的，都可以称为chebyshev inequality。比如
$$

C\ge0,P(X\ge C)\le EX/C.\
P(X\ge C)\le Ee^{a(X-C)},a>0
$$

2.Cauchy-Schwarz Inequality

$\le \sqrt{EX^2EY^2}$

这说明二阶矩存在， $E X Y$ 也存在，并且满足该不等式。

证明：
$E(tX+Y)^2 = E(t^2X^2+Y^2+2tXY) = t^2EX^2+EY^2+2tEXY \ge 0,\forall t\in R$
利用判别式小于等于0即可。注意 $f(t)=E(tX+Y)^2\le 2t^2X^2+2Y^2<\infty$ ，故 $f (t)$ 始终存在。

同时，所有具有二阶矩的随机变量构成的向量空间可以成为一个内积空间，定义
$EXY,||X||=\sqrt{EX^2},d(X,Y) = \sqrt{E(X-Y)^2}$

协方差

协方差的引入，可以考虑两个随机变量的和的方差。
$var(X+Y) = E((X+Y)-E(X+Y))^2 =E(X-EX+Y-EY)^2 = var(X)+var(Y)+2E(X-EX)(Y-EY)$
如果 $X, Y$ 两两独立，最后一项是没有的。所以 $v a r (X + Y) = v a r (X) + v a r (Y) .$

否则，我们可以定义

定义4.2.3 协方差 $\sigma_{X,Y} = cov(X,Y) := E(X-EX)(Y-EY).$

假设的前提是二阶矩存在。

定义协方差，目的是考虑把两个以上的随机变量放在一起时，研究他们之间的关系。可以定义随机向量的数字特征：
$E\overrightarrow X = (EX_1,\cdots,EX_n)\\ \Sigma=(\sigma_{ij})_{n\times n}$
协方差矩阵 $\Sigma$ 是一个半正定矩阵.

协方差是一个双线性函数：
$ac\cdot cov(X,Y)\\ cov(\sum_i X_i,\sum_jY_j) = \sum_i\sum_j cov(X_i,Y_j)\\ cov(X,X) = var(X) cov(X,Y) = EXY - (EX)(EY)\\ (similar\ to\ variance)\\ \sigma_{X,Y} \le \sigma_X\sigma_Y\ \\ (cauchy,E|(X-EX)(Y-EY)|\le \sqrt{E(X-EX)^2E(Y-EY)^2})$

X,Y	-1	0	1
0	$\frac13$	0	$\frac13$	$\frac23$
1	0	$\frac13$	0	$\frac13$
	$\frac13$	$\frac13$	$\frac13$

最优预测2

问题：有两个随机变量 $X, Y$ ，满足 $EX=0,EX^2=1$ ，希望能用 $X$ 的线性函数去预测 $Y$ ，即
$Q(a,b) = E(Y-(aX+b))^2$
这个均方误差达到最小。

解决方案：取 $a = c o v (X, Y), b = E Y$ 。

证明：

首先令 $W = Y - a X$ 为一个新的随机变量，则
$Q(a,b) = E(W-b)^2$
此时的目标是去优化 $Q (a, b)$ ，由最优预测1可知， $b = E W = E Y$ 时可以实现目标。于是得到 $b$ 值。令 $V = Y - E Y$ ，设 $a_0$ 使得 $Q (a)$ 达到最小值。下面优化 $Q (a)$ :
$Q(a) = E(Y-aX-EY)^2 = E(V-aX)^2 = E(V-a_0X+a_0X)^2=Q(a_0)+a_0^2EX^2+2a_0EX(V-a_0X)$
于是由二次函数的性质，
$EX(V-a_0X) = 0\Rightarrow a_0 = EXV = EXY = cov(X,Y)$

$Q(a_0) + a_0^2 \\ Q(a_0) = Q(0) - a_0^2 = var(Y) - cov(X,Y)^2 = (1-\rho^2)var(Y)\\ |\rho| = 1 \iff Y = a_0 + b_0 X$

最优预测3

如果用任意一个函数去预测 $Y$ ，即最小化
$Q(\varphi) = E(Y-\varphi(X))^2$
结论： $\varphi(x) = E(Y|X=x)$ .

证明：
$Q(\varphi) = E(Y-\phi(X)+\phi(X)-\varphi(X))^2 = Q(\phi) + E(\phi(X)-\varphi(X))^2 +2E(\phi(X)-\varphi(X))(Y-\phi(X))$
考虑
$Let\ W = \phi(X)-\varphi(X),\ \hat Y = W(Y-\phi(X))\\ E(\hat Y|X=x) = E(w(Y-\phi(x))|X=x) = wE(Y|X=x)-w\phi(x) = 0$
故 $E(\hat Y|X) = 0$ .
$E\hat Y = E(E(\hat Y|X)) = 0$
因而 $\phi$ 是最小值点。

条件期望

最优预测的命题：
$E[(Y-g(X))^2]\ge E[(Y-E[Y|X])^2]$
还有一种很直觉的判断方式。当拿常数预测Y的时候，预测Y的均值最合理。这时候如果观察到了X的值，那依然预测Y的均值，不过这时候是在条件X=x的情况下。

重期望公式：
$E [E [Y ∣ X]] = E Y$
只需要在离散情形和连续情形会证明和使用即可。

例子：求几何分布的方差。设 $X$ 是一个服从参数 $p$ 的几何分布随机变量，随机变量 $Y$ 表示在第一轮实验中成功的示性函数。即 $Y\sim B(1,p)$ 。那么
$E[X^2] = EE[X^2|Y] = E[X^2|Y=1]p + E[X^2|Y=0](1-p) = p + E[(1+X)^2](1-p)$
因此
$EX^2 = \frac2{p^2}-\frac1p, var(X) = \frac1{p^2}-\frac1p$

母函数

定义

设 $X$ 取非负整数，分布列为 $p_i,i=0,1,2,\cdots$ ，定义 $\sum_{i=0}^\infty p_is^i = p_0+p_1s+p_2s^2+\cdots$ 为随机变量 $X$ 的母函数，记为 $g_X(s)$ 或 $g (s)$ .如果我们规定 $s$ 取 $[- 1, 1]$ 间的数，则 $g (s)$ 收敛，期望存在，可以认为 $g(s) = Es^X$ .

注意，母函数中只涉及分布列，因此确定了分布列，母函数就被确定了。同样的，确定了母函数，由
$g^{(k)}(0) = p_kk!$
可以确定分布列，因此母函数和分布列是唯一互相决定的。

举例：几何分布的母函数
$\sum_{k=1}^\infty q^{k-1}ps^k = \frac{ps}{1-qs}$

性质

对母函数求导：
$p_1+2p_2s+3p_3s^2+\cdots=EXs^{X-1}\\ g''(s) = 2p_2+6p_3s+\cdots = EX(X-1)s^{X-2}\\ g^{(l)}(s) = EX(X-1)\cdots(X-l+1)s^{X-l}\\ g(1) =\sum_ip_i=1\\ g'(1) = EX\\ g''(1) = EX(X-1) =EX^2-g'(1)$

乘积

若 $X$ 与 $Y$ 独立，则
$g_{X+Y}(s) = g_X(s)g_Y(s)$
这是因为
$g_{X+Y}(s) = Es^{X+Y} = Es^Xs^{Y} = Es^XEs^Y = g_X(s)g_Y(s)$
举例：二项分布

二项分布可以看做是 $n$ 个 $i i d$ 的伯努利分布的和，而每个伯努利分布的母函数为 $q + p s$ ，故二项分布的母函数
$g(s) = (q+ps)^n$
利用母函数法，还可以看到泊松逼近的一个证明方式，由
$\lim_{n\to\infty} g(s) = \lim_{n\to\infty} (1+p(s-1))^n =e^{p(s-1)}$
这是一个参数为 $p$ 的泊松变量的母函数。

举例：帕斯卡分布

帕斯卡分布可以看做是r个iid的几何分布的和，而每个几何分布的母函数为 $\dfrac{ps}{1-qs}$ ，则帕斯卡分布的母函数
$(\frac{ps}{1-qs})^r$

复合

设 $\xi = \xi_1,\xi_2,\cdot,i.i.d.$ ，且它们与 $W$ 独立。令 $\xi_1+\cdots+\xi_W$ ，则
$g_Y(s) = g_W(g_\xi(s))$
证明：
$E(s^Y|W=k) = E(s^{\xi_1+\cdots+\xi_k}|W=k) = E(s^{\xi_1+\cdots+\xi_k})=g_\xi(s)^k\\ g_Y(s)=E(s^Y) = \sum_kg_\xi(s)^kp_k = g_W(g_\xi(s))$
其他性质：
$g_Y'(1) = g'_\xi(1)g'_W(g_\xi(1)) = E\xi EW$
直观上也可以接受，因为 $Y$ 就是 $W$ 个 $\xi$ 的和。

复合Possion分布

设 $N\sim P(\lambda)$ ， $\xi_1,\xi_2,\cdots$ 是一列 $i . i . d$ 的随机变量，则 $\xi_1+\xi_2+\cdots+\xi_N$ 是一个复合泊松变量。

首先计算泊松分布的母函数：
$e^{-\lambda}(1+\dfrac{\lambda}{1}s+\dfrac{\lambda^2}{2!}s^2+\cdots) = e^{-\lambda}e^{\lambda s} = e^{\lambda(s-1)}$
因此
$g_Y(s) = e^{\lambda(g_\xi(s)-1)}$
如果 $\xi$ 服从 $B e r n o u l l i$ 分布， $g_\xi(s) = q+ps$ ，则
$g_Y(s) = e^{\lambda(q+ps-1)} =e^{\lambda p(s-1)}$
因此 $Y$ 还是一个泊松分布，参数为 $\lambda p$ ，意思是说，如果一只虫产卵数服从泊松分布，其中每个卵都独立地以概率 $p$ 孵化为幼虫，则一只虫产生的幼虫数还服从（复合）泊松分布。

凸组合

设 $X,Y,\xi$ 为相互独立的随机变量， $P(\xi=1) = 1-P(\xi=0) = p$ ，即 $\xi\sim B(1,p)$ .令
$X\cdot1_{\{\xi=1\}}+Y\cdot 1_{\{\xi=0\}}$
结论是
$g_W = pg_X+(1-p)g_Y$
证明：
$g_W=E(s^W) = E(s^W|\xi=1)p+E(s^W|\xi=0)q = E(s^X|\xi=1)p+E(s^Y|\xi=0)q = pg_X+(1-p)g_Y$

特征函数

定义与基本性质

称 $Ee^{itx}=Ecos(tX)+\sqrt{-1}sin(tX),\forall t\in \R$ 为 $X$ 的特征函数，记为 $f_X(t)$ 。

基本性质三条：

$f (0) = 1$ ;
$f (t)$ 是一致连续的。
$f (t)$ 是半正定的。即 $\forall t_1,\cdots,t_n\in R$ ，令 $a_{ij} = f(t_i-t_j)$ ，则 $A=(a_{ij})_{n\times n}$ 是半正定矩阵。

$B o c h n e r - K h i n c h i n e$ 定理：如果 $KaTeX parse error: Undefined control sequence: \C at position 8: f:\R\to\̲C̲$ 满足上述三条，则 $f$ 是某个随机变量的特征函数。

逆转公式&唯一性

逆转公式：设分布函数 $F (x)$ 的特征函数为 $f (t)$ ，又 $x_1,x_2$ 是 $F (x)$ 的连续点，则
$F(x_2)-F(x_1) = \lim_{T\to\infty}\frac{1}{2\pi}\int_{-T}^T\dfrac{e^{-itx_1}-e^{-itx_2}}{it}f(t)dt$
唯一性定理：分布函数由其特征函数唯一决定。
$\lim_{y\to-\infty}\lim_{T\to\infty}\frac{1}{2\pi}\int_{-T}^T\dfrac{e^{-ity}-e^{-itx}}{it}f(t)dt$
当 $f (t)$ 是绝对可积函数时，
$\frac{1}{2\pi}\int_{-\infty}^\infty e^{-itx}f(t)dt$
因此在 $f (t)$ 绝对可积的条件下，分布密度 $p (x)$ 是 $f (t)$ 的傅里叶逆变换。相同的，根据特征函数的定义，
$\int_{-\infty}^\infty e^{itx}p(x)dx$

其他性质

如果 $k$ 阶矩存在，则
$i^2EX^2,\cdots,f^{(k)}(0) = i^kEX^k$
且有 $T a y l o r$ 展开：
$\frac{f''(0)}{2!}t^2+\cdots+\frac{f^{(k)}(0)}{k!}t^k+o(t^k).$
线性变换：
$f_{aX+b}(t) = Ee^{aitX+ibt} = e^{ibt}Ee^{iatX} = e^{ibt}f_X(at)$
标准正态的特征函数：
$\int e^{itx}p(x)dx = \frac{1}{\sqrt{2\pi}}\int e^{itx}e^{-\frac {x^2}2}dx = \frac{1}{\sqrt{2\pi}}\int e^{-\frac {x^2}2}cos(tx)dx$
这边利用了欧拉公式和奇函数的全积分为0.

由于正态分布的一阶矩存在，因此对特征函数求导是有意义的，对它求导：
$\frac{1}{\sqrt{2\pi}}\int(-x)sin(tx)e^{-\frac{x^2}2}dx = \frac{1}{\sqrt{2\pi}}\int sin(tx)de^{-\frac{x^2}{2}} = -\frac{1}{\sqrt{2\pi}}\int tcos\ te^{-\frac{x^2}{2}}dx = -tf(t)$
因此解微分方程得
$e^{-\frac{t^2}2}$
因而 $X\sim N(\mu,\sigma^2)$ 的特征函数
$f_X(t) = e^{i\mu t} f_Z(\sigma t) = e^{i\mu t - \frac12\sigma^2t^2}.$
乘积：如果 $X, Y$ 独立，则
$f_{X+Y} = Ee^{i(X+Y)t} = Ee^{iXt}e^{iYt} = f_Xf_Y$
同样地有：bernoulli分布的特征函数 $f(t) = q+pe^{it}$ ，二项分布的为 $q+pe^{it})^n$ 。 $n\to\infty$ 时，这个函数逼近泊松分布的特征函数 $e^{\lambda(e^it-1)}$

特征函数的凸组合还是特征函数：设 $W=X\xi+Y(1-\xi)$ ，则 $f_W=pf_X+(1-p)f_Y$ .

证明：
$Ee^{itW} = E[e^{itW}|\xi=1]p+qE[e^{itW}|\xi=0] = pf_X+(1-p)f_Y.$

联合特征函数

$f_{\overrightarrow X}(\overrightarrow t) = Ee^{i\overrightarrow t\cdot\overrightarrow X} = Ee^{i(t_1X_1+t_2X_2+\cdots+t_nX_n)}.$

同样有逆转公式、唯一性定理等等。

边缘特征函数：
$f_X(t) = f_{X,Y}(t,0)$
只要把除了边缘的分量取为0就行。

注意区分：

当 $X$ 与 $Y$ 独立时，有
$f_{X,Y}(t,s) = f_X(t)f_Y(s).\cdots\cdots(1)\\ f_{X+Y}(t) = f_X(t)f_Y(t).\cdots\cdots(2)$
但是第一条可以推出 $X, Y$ 独立，第二条不行。注意自变量是否共用 $t$ 。

多元正态分布

定义

$\overrightarrow X = (X_1,\cdots,X_n)^T \sim N(\overrightarrow\mu,\Sigma)\\ p(\overrightarrow x) = \frac{1}{\sqrt{2\pi}^n\sqrt{|\Sigma|}}exp\{-\frac12(\overrightarrow x-\overrightarrow\mu)^T\Sigma^{-1}(\overrightarrow x -\overrightarrow \mu)\}$

可以验证， $\mu,\Sigma$ 分别是期望和协方差矩阵。 $\Sigma$ 是一个正定矩阵。

标准正态：
$\overrightarrow Z = (Z_1,\cdots,Z_n)^T\sim N(0,I_n)\\$
此时可以验证 $p_{\overrightarrow Z}(\overrightarrow z) = p_Z(z_1)p_Z(z_2)\cdots p_Z(z_n)$ ，因此
$Z_1,Z_2,\cdots,Z_n\ i.i.d. \ \sim N(0,1)$

重要性质

非退化线性变换：
$\nu + BX, X\sim N(\mu,\Sigma),Y\sim N(B\mu+\nu,B\Sigma B^{T})$
对于正态向量， $\Sigma$ 是一个正定矩阵，因此存在 $A$ 满秩， $AA^T = \Sigma.$ 令
$A^{-1}(X-\mu)$
则 $Z$ 是一个标准正态向量。这个 $A$ 也可以直接取为 $\sqrt\Sigma = U^T\sqrt{D}U$ .

因此任何一个一般的正态向量，都可以化为标准正态，标准正态也可以通过适当的变换获得任意的正态向量。

标准正态的特征函数：
$f_Z(t) = e^{-\frac12 t^2}\\ f_{\overrightarrow Z} (\overrightarrow t) = e^{-\frac{1}2(t_1^2+\cdots+t_n^2)}=e^{-\frac12||t||^2}$
而一般正态向量的特征函数：
$f_X(t) = exp\{i\mu t - \frac12\sigma^2t^2\} \\f_{\overrightarrow X}(\overrightarrow t) = exp\{i\mu\cdot\overrightarrow t-\frac12\overrightarrow t^T\Sigma\overrightarrow t\}$
如果 $\Sigma$ 半正定，称 $f(\overrightarrow t)$ 对应的分布称为高斯分布 $N(\overrightarrow\mu,\Sigma)$ .

同样地，高斯向量的任意线性变换仍然是高斯向量（无法用密度刻画，用特征函数），依然存在
$\overrightarrow X \overset{d}= \overrightarrow \mu + A\overrightarrow Z, A_{n\times m}:AA^T = \Sigma$
即使 $\sqrt\Sigma$ 退化，依然存在 $A$ 使得 $\overrightarrow X = \mu + AZ$ 。

边缘分布：
$\overrightarrow X = (Y_1,\cdots,Y_r; W_{r+1},\cdots,W_n)^T,\\ \mu = (\nu_1,\cdots,\nu_r;w_{r+1},\cdots,w_n)^T,\\ f_Y(s) = f_X(s,0) = exp\{i\overrightarrow\nu\cdot \overrightarrow s-\frac12 s^T\Sigma_{11}s\}.$
可以发现， $r$ 维边缘还是高斯的，而且可以看出，两两不相关等价于相互独立。
$\Sigma_{12}=0\Rightarrow f_{\overrightarrow X}(s;u) = f_Y(s)f_W(u)\Rightarrow\textbf{独立}$
计算条件分布：
$(X_1,\cdots,X_r;X_{r+1},\cdots,X_n)^T = (Y_1,\cdots,Y_r;W_{r+1},\cdots,W_n)^T$
如果要计算W关于 $Y$ 的条件分布，可以考虑做正交分解，设 $B_{(n-r)\times r}Y\oplus V$ 即 $V = W - B Y$ 。转而去求 $Y, V$ 的条件分布，而由于他们俩不相关，则相互独立，条件分布转而变为边缘分布。解出边缘分布（正态的）再用线性变换得到 $W$ 的分布。

首先，
$(Y_1,\cdots,Y_r;V_{r+1},\cdots,V_n)^T$
服从高斯分布，因为它是 $X$ 的可逆线性变换。

然后计算协方差，
$cov(V_k,Y_i) = cov(W_k-\sum_{j\le r}b_{kj}Y_j,Y_i) = \sigma_{ki}-\sum_{j\le r}b_{kj}\sigma_{ji} = (\Sigma_{21}-B\Sigma_{11})_{ki}$
假设 $\Sigma_{11}$ 非退化，令
$\Sigma_{21}\Sigma_{11}^{-1}$
则 $V\sim N(\overrightarrow v,\tilde \Sigma_{22})$ ,其中
$\overrightarrow v = EV = E(W-BY) = \overrightarrow w-B\overrightarrow\nu,\ \tilde\Sigma_{22} = \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}$
于是，在 $\overrightarrow Y = \overrightarrow y$ 的条件下， $B\overrightarrow y + V$ ，和 $Y$ 独立，条件分布为 $N(w+B(y-\nu),\tilde\Sigma_{22})$ .