Chapter A Random Variables
A.1 随机变量的方差
首先解释随机变量的方差的意义。
考虑一个平均值为
x
‾
\overline{x}
x和方差为
σ
x
2
\sigma_{x}^{2}
σx2的标量实值随机变量
x
x
x如
x
‾
=
△
E
x
,
σ
x
2
=
△
E
(
x
−
x
‾
)
=
E
x
2
−
x
‾
2
\overline{x}=^{\triangle} E\mathbf{x}, \sigma_{x}^2=^{\triangle} E(\mathbf{x}-\overline{x})=E\mathbf{x}^2-\overline{x}^2
x=△Ex,σx2=△E(x−x)=Ex2−x2
其中加黑字体表示随机变量。直观地说,
x
\mathbf{x}
x的方差定义了围绕
x
‾
\overline{x}
x的实轴上的一个区间,其中
x
\mathbf{x}
x的值最有可能出现在:
1.一个较小的
σ
x
2
\sigma_x^2
σx2表示
x
\mathbf{x}
x更可能加设置接近平均值
x
‾
\overline{x}
x
2.一个较大的
σ
x
2
\sigma_x^2
σx2表示
x
\mathbf{x}
x更可能出现在其平均值周围的更宽区间内取值。
因此习惯上将随机变量的方差视为对给定实验中所能假设值得不确定性的度量。一个较小的方差表示我们对
x
\mathbf{x}
x的期望值更确定。
A.2相关随机变量
在估计理论中,通常情况下,一个变量的信息是从另一个变量的观测中提取的。从观测中提取的信息得相关性是两个随机变量之间密切相关程度的函数,通过他们之间的依赖关系或相关性来衡量。
A.3负值随机变量
A.4向量值随机变量
向量值随机变量是随机变量的集合(以列或行向量得形式)。单个条目本身可以是实数或复数。比如,如果
x
=
c
o
l
x
(
0
)
,
x
(
1
)
\mathbf{x}=col{x(0),x(1)}
x=colx(0),x(1)是一个具有x(0)和x(1)得随机向量,呢么我们将其平均值定义为单个平均值的向量。
x
‾
=
E
x
=
[
x
‾
(
0
)
x
‾
(
1
)
]
=
[
E
x
(
0
)
E
x
(
1
)
]
\overline{x}=E\mathbf{x}=\left[\begin{array}{l} \overline{x}(0)\\ \overline{x}(1) \end{array}\right]=\left[\begin{array}{l} Ex(0)\\Ex(1) \end{array}\right]
x=Ex=[x(0)x(1)]=[Ex(0)Ex(1)]
其协方差矩阵为
R
x
=
E
(
x
−
x
‾
)
(
x
−
x
‾
)
∗
R_x=E(x-\overline{x})(x-\overline{x})^*
Rx=E(x−x)(x−x)∗
A.5高斯随机向量
给出两个高斯随机向量四阶矩的结论。这些结论在均方性能和瞬态性能的分析中会使用。
LemmaA.2:(实高斯变量的四阶矩)假设x是具有零均值和对角协方差矩阵的实值高斯随机列向量。例如
E
x
x
T
=
Λ
Exx^T=\Lambda
ExxT=Λ。那么对任意相容维数的对称矩阵W都有
E
x
x
T
W
x
x
T
=
Λ
T
r
(
W
Λ
)
+
2
Λ
W
Λ
E{xx^TWxx^T}=\Lambda Tr(W\Lambda)+2\Lambda W\Lambda
ExxTWxxT=ΛTr(WΛ)+2ΛWΛ
B.1 Hermitian 矩阵与正定矩阵
Hermitian矩阵:矩阵A的Hermitian共轭A*是其专职的复共轭。
谱分解:Hermitian矩阵只能有实特征值。假设
u
i
u_i
ui为
λ
i
\lambda_i
λi的特征向量。两边左乘
u
∗
u^*
u∗即
u
i
∗
A
u
i
=
λ
∣
∣
u
i
∣
∣
2
u_i^*Au_i=\lambda ||u_i||^2
ui∗Aui=λ∣∣ui∣∣2。现在这个等式左侧的标量是实的,因为他与他的复共轭一致即
(
u
i
∗
A
u
i
)
∗
=
u
i
∗
A
u
i
(u_i^*Au_i)^*=u_i^*Au_i
(ui∗Aui)∗=ui∗Aui。因此
λ
i
\lambda_i
λi也必须是实数。
Hermitian矩阵的另一个重要性质是这种矩阵总是有一组正交的特征向量。也就是说,如果A是一个n×n的Hermitian矩阵,那么就会存在n个正交的特征向量
u
i
u_i
ui满足
A
u
i
=
λ
i
u
i
,
∣
∣
u
i
∣
∣
2
=
1
,
u
i
∗
u
j
=
0
f
o
r
i
≠
j
Au_i=\lambda_iu_i, ||u_i||^2=1, u_i^*u_j=0 for i\neq j
Aui=λiui,∣∣ui∣∣2=1,ui∗uj=0fori=j
可以将A的谱分解写成
A
=
U
Λ
U
∗
A=U\Lambda U^*
A=UΛU∗
其中
Λ
=
d
i
a
g
{
λ
1
,
.
.
.
,
λ
n
}
\Lambda=diag\{\lambda_1,...,\lambda_n\}
Λ=diag{λ1,...,λn},
U
=
[
u
1
,
.
.
.
,
u
n
]
U=[u_1,...,u_n]
U=[u1,...,un]且U满足
U
U
∗
=
U
∗
U
=
I
UU^*=U^*U=I
UU∗=U∗U=I
我们说U是酉矩阵。
LemmaB.1(特征值的Raylelgh-Ritz特征)如果A是一个n×n的Hermitian矩阵,那么对于所有的向量x
λ
m
i
n
∣
∣
x
∣
∣
2
≤
x
∗
A
x
≤
λ
m
a
x
∣
∣
x
∣
∣
2
\lambda_{min}||x||^2\leq x^*Ax\leq \lambda_{max}||x||^2
λmin∣∣x∣∣2≤x∗Ax≤λmax∣∣x∣∣2
以及
λ
m
i
n
=
m
i
n
∣
∣
x
∣
∣
=
1
x
∗
A
x
,
λ
m
a
x
=
m
a
x
x
≠
0
(
x
∗
A
x
x
∗
x
)
=
m
a
x
∣
∣
x
∣
∣
=
1
x
∗
A
x
\lambda_{min}=\mathop{min}\limits_{||x||=1}x^*Ax,\lambda_{max}=\mathop{max}\limits_{x\neq0}(\frac{x^*Ax}{x^*x})=\mathop{max}\limits_{||x||=1}x^*Ax
λmin=∣∣x∣∣=1minx∗Ax,λmax=x=0max(x∗xx∗Ax)=∣∣x∣∣=1maxx∗Ax
**正定矩阵:**一个n×n的Hermitian矩阵是半正定的,即
x
∗
A
x
≥
0
x^*Ax\ge0
x∗Ax≥0
LemmaB.2(正定矩阵的特征值)一个n×n的Hermitian矩阵A是正定的,当且仅当所有特征值均为正。
B.2矩阵的范围空间和零空间
形如
A
∗
A
x
=
A
∗
b
A^*Ax=A^*b
A∗Ax=A∗b的线性方程组对于任何向量b都有一个解x
每个完全满秩的矩阵都使得
A
∗
A
A^*A
A∗A是可逆的(实际上是正定的)。同时,任何Hermitian正定矩阵B都满足
A
∗
B
A
>
0
A^*BA>0
A∗BA>0
B.3Schur补
首先假设逆矩阵存在。考虑一个块矩阵
M
=
[
A
B
C
D
]
M=\left[\begin{array}{l} A\quad B\\C\quad D \end{array}\right]
M=[ABCD]
M中A的Schur补由
Δ
A
\Delta_A
ΔA表示,被定义为
Δ
A
=
D
−
C
A
−
1
B
\Delta_A=D-CA^{-1}B
ΔA=D−CA−1B
同样的,M中D的Schur补被定义为
块分解:就这些Schur补而言,通过直接计算很容易验证矩阵M可按以下两种有用形式中的任一种进行分解
[
A
B
C
D
]
=
[
I
0
C
A
−
1
I
]
[
A
0
0
Δ
A
]
[
I
A
−
1
B
0
I
]
=
[
I
B
D
−
1
0
I
]
[
Δ
D
0
0
D
]
[
I
0
D
−
1
C
I
]
\left[\begin{array}{l} A\quad B\\C\quad D \end{array}\right]=\left[\begin{array}{l} I\qquad\quad 0\\CA^{-1}\quad I \end{array}\right]\left[\begin{array}{l} A\quad 0\\0\quad \Delta_A \end{array}\right]\left[\begin{array}{l} I\quad A^{-1}B\\0\qquad I \end{array}\right]\\=\left[\begin{array}{l} I\quad BD^{-1}\\0\quad I \end{array}\right]\left[\begin{array}{l} \Delta_D\quad 0\\0\quad D \end{array}\right]\left[\begin{array}{l} I\quad 0\\D^{-1}C\quad I \end{array}\right]
[ABCD]=[I0CA−1I][A00ΔA][IA−1B0I]=[IBD−10I][ΔD00D][I0D−1CI]
B.7克罗内克积
设
A
=
[
a
i
j
]
i
,
j
=
1
m
A=[a_{ij}]_{i,j=1}^{m}
A=[aij]i,j=1m和
B
=
[
b
i
j
]
i
,
j
=
1
n
B=[b_{ij}]_{i,j=1}^{n}
B=[bij]i,j=1n分别是m×m和n×n的矩阵。其克罗内克积(也称张量积)由
A
⊗
B
A\otimes B
A⊗B,其元素为
A
⊗
B
=
[
a
11
B
a
12
B
.
.
.
a
1
m
B
a
21
B
a
22
B
.
.
.
a
2
m
B
.
.
.
a
m
1
B
a
m
2
B
.
.
.
a
m
m
B
]
A\otimes B=\left[\begin{array}{l} a_{11}B\quad a_{12}B\quad ...\quad a_{1m}B\\a_{21}B\quad a_{22}B\quad ...\quad a_{2m}B\\...\\a_{m1}B\quad a_{m2}B\quad ...\quad a_{mm}B \end{array}\right]
A⊗B=
a11Ba12B...a1mBa21Ba22B...a2mB...am1Bam2B...ammB
克罗内克积的主要用于用向量运算代替矩阵运算。
Chaper C
chapterC解释了如何区分标量值函数g(z)与复值参数z及其复共轭z*。参数z可以是标量,也可以是向量。
C.1Cauchy-Riemann 条件
首先是标量参数z=x+jy,可以将g(z)视为两个实标量的函数:
g
(
z
)
=
u
(
x
,
y
)
+
j
v
(
x
,
y
)
g(z)=u(x,y)+jv(x,y)
g(z)=u(x,y)+jv(x,y)
现在,根据复函数理论,g(z)在
z
0
=
x
0
+
j
y
0
z_0=x_0+jy_0
z0=x0+jy0的导数被定义为:
d
g
d
z
=
l
i
m
Δ
x
→
0
g
(
x
0
+
Δ
x
,
y
0
+
Δ
y
)
−
g
(
x
0
,
y
0
)
Δ
x
+
j
Δ
y
\frac{dg}{dz}=\mathop{lim}\limits_{\Delta x\rightarrow0}\frac{g(x_0+\Delta x, y_0+\Delta y)-g(x_0, y_0)}{\Delta x+j\Delta y}
dzdg=Δx→0limΔx+jΔyg(x0+Δx,y0+Δy)−g(x0,y0)
我们定义:
d
g
d
z
=
1
2
{
∂
g
∂
x
−
j
∂
g
∂
y
}
\frac{dg}{dz}=\frac{1}{2}\{\frac{\partial g}{\partial x}-j\frac{\partial g}{\partial y}\}
dzdg=21{∂x∂g−j∂y∂g}
当且仅当满足
∂
u
∂
x
=
∂
v
∂
y
a
n
d
∂
u
∂
y
=
∂
v
∂
x
\frac{\partial u}{\partial x}=\frac{\partial{v}}{{\partial y}}\quad and\quad \frac{\partial u}{\partial y}=\frac{\partial{v}}{{\partial x}}
∂x∂u=∂y∂vand∂y∂u=∂x∂v
C.2 标量参数
更一般地,如果g是z和z的函数,我们定义其关于z和z的偏导数如下:
C.3 向量参数
假设z是一个列向量,即
z
=
c
o
l
{
z
1
,
z
2
,
.
.
.
,
z
n
}
z=col\{z_1,z_2,...,z_n\}
z=col{z1,z2,...,zn}
那么g关于z的负梯度表示为如下行向量:
∇
z
g
=
{
∂
g
/
∂
z
1
.
.
.
∂
g
/
∂
z
n
}
\nabla_zg=\{\partial g/\partial z_1\quad...\quad\partial g/\partial z_n\}
∇zg={∂g/∂z1...∂g/∂zn}
同样地,g关于z的负梯度被定义为列向量。
我们之所以选择将g关于z的负梯度定义为行向量,将g关于z的负梯度定义为列向量是因为后续的微分结果将与我们所习惯的实值函数的标准微分结果一致。
Hessian矩阵
实值参数
纯量值数据
重点在从一组最小均方意义上的测量中估计一个不可观测量的基本问题上。根据测量数据所传递的关于不可测量的信息的多少,估计任务的难度增加或减少
1.1 无观测估计
假设对实值随机变量x的全部已知是他的均值
x
‾
\overline{x}
x和方差
σ
x
2
\sigma_x^2
σx2且我们希望估计x在给定实验中的假设值。用
x
^
\hat{x}
x^表示x的估计值。为了求出估计值,我们首先选择一个代价函数。得到的估计值
x
^
\hat{x}
x^只有在它导致最小的代价值得意义上才是最优的。代价函数的不同选择通常会导致
x
^
\hat{x}
x^的不同选择,每个选择都以自己的方式最优。采用设计准则为均方误差准则。
x
~
=
x
−
x
^
\tilde{x}=x-\hat{x}
x~=x−x^
然后通过最小化均方误差MSE来确定
x
^
\hat{x}
x^,定义
x
^
\hat{x}
x^的期望值,即
m
i
n
x
^
E
x
^
(1.1)
\mathop{min}\limits_{\hat{x}}E\hat{x}\tag{1.1}
x^minEx^(1.1)