前言
这两天在调研MIMO预编码算法文献的时候,恰巧看到了一篇这篇paper:
A Leakage-Based Precoding Scheme for Downlink Multi-User MIMO Channels
解开了我之前对广义瑞丽熵最优解的证明疑惑。 便写这篇博客来记录一下。
问题
传统的多用户MIMO预编码,往往以速率, 也即SINR的函数为目标,SINR可写为:
SINR
i
=
∥
H
i
w
i
∥
2
M
i
σ
i
2
+
∑
k
=
1
,
k
≠
i
K
∥
H
i
w
k
∥
2
\operatorname{SINR}_{i}=\frac{\left\|\mathbf{H}_{i} \mathbf{w}_{i}\right\|^{2}}{M_{i} \sigma_{i}^{2}+\sum_{k=1, k \neq i}^{K}\left\|\mathbf{H}_{i} \mathbf{w}_{k}\right\|^{2}}
SINRi=Miσi2+∑k=1,k=iK∥Hiwk∥2∥Hiwi∥2
此时我们发现, 分子中包含第
i
i
i个用户的预编码
w
i
w_i
wi,而分母包含了其余
K
−
1
K-1
K−1个用户的预编码,属于待优化的多变量的高度耦合,也因此加大了设计难度。
在本文中,作者则考虑了如下指标, SLNR, L则是Leakage的意思, 如下:
S
L
N
R
i
=
∥
H
i
w
i
∥
2
M
i
σ
i
2
+
∑
k
=
1
,
k
≠
i
K
∥
H
k
w
i
∥
2
\mathrm{SLNR}_{i}=\frac{\left\|\mathbf{H}_{i} \mathbf{w}_{i}\right\|^{2}}{M_{i} \sigma_{i}^{2}+\sum_{k=1, k \neq i}^{K}\left\|\mathbf{H}_{k} \mathbf{w}_{i}\right\|^{2}}
SLNRi=Miσi2+∑k=1,k=iK∥Hkwi∥2∥Hiwi∥2
分子,视为期望的信号能量, 而分母,则是第
i
i
i个用户泄露到其他用户处的能量。通过最大化SLNR,无疑就是在尽可能增大信号能量的情况下减小对其他用户的干扰。而相比于SINR, 其优势也显而易见:SLNR中只涉及第
i
i
i个用户自己的预编码矩阵,而不再有多变量的耦合问题。
不妨设
∥
w
i
∥
=
1
\|w_i\|=1
∥wi∥=1, SLNR可以化为:
S
L
N
R
i
=
w
i
H
H
i
H
H
i
w
i
M
i
σ
i
2
+
∑
k
=
1
,
k
≠
i
K
∥
H
k
w
i
∥
2
=
w
i
H
H
i
H
H
i
w
i
w
i
H
(
M
i
σ
i
2
I
+
H
~
i
H
H
~
i
)
w
i
,
(1)
\mathrm{SLNR}_{i}=\frac{\mathbf{w}_i^H\mathbf{H}_i^H\mathbf{H}_i\mathbf{w}_i}{M_{i} \sigma_{i}^{2}+\sum_{k=1, k \neq i}^{K}\left\|\mathbf{H}_{k} \mathbf{w}_{i}\right\|^{2}} = \frac{\mathbf{w}_i^H\mathbf{H}_i^H\mathbf{H}_i\mathbf{w}_i}{\mathbf{w}_i^H(M_{i} \sigma_{i}^{2} \mathbf{I}+\tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i})\mathbf{w}_i},\tag{1}
SLNRi=Miσi2+∑k=1,k=iK∥Hkwi∥2wiHHiHHiwi=wiH(Miσi2I+H~iHH~i)wiwiHHiHHiwi,(1)
其中,
H
~
i
=
[
H
1
⋯
H
i
−
1
H
i
+
1
⋯
H
K
]
T
\tilde{\mathbf{H}}_{i}=\left[\mathbf{H}_{1} \cdots \mathbf{H}_{i-1} \mathbf{H}_{i+1} \cdots \mathbf{H}_{K}\right]^{T}
H~i=[H1⋯Hi−1Hi+1⋯HK]T
代表除去了
H
i
\mathbf{H}_i
Hi之后的联合信道矩阵。由(1)可知, SLNR实质就是广义瑞丽熵的形式,因此
w
i
\mathbf{w}_i
wi为最大广义特征向量时取到最大值。
矩阵形式
一直困扰我的问题是广义瑞丽熵的矩阵形式。如下,当我们将每个用户拓展为多流场景后,SLNR变为:
S
L
N
R
i
=
∥
H
i
W
i
∥
F
2
M
i
σ
i
2
+
Tr
(
W
i
H
H
~
i
H
H
~
i
W
i
)
=
Tr
(
W
i
H
H
i
H
H
i
W
i
)
Tr
[
(
W
i
H
(
M
i
σ
i
2
I
+
H
~
i
H
H
~
i
)
W
i
]
\begin{aligned} \mathbf{S L N R}_{i} &=\frac{\left\|\mathbf{H}_{i} \mathbf{W}_{i}\right\|_{F}^{2}}{M_{i} \sigma_{i}^{2}+\operatorname{Tr}\left(\mathbf{W}_{i}^{H} \tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i} \mathbf{W}_{i}\right)} \\ &=\frac{\operatorname{Tr}\left(\mathbf{W}_{i}^{H} \mathbf{H}_{i}^{H} \mathbf{H}_{i} \mathbf{W}_{i}\right)}{\operatorname{Tr}\left[\left(\mathbf{W}_{i}^{H}\left(M_{i} \sigma_{i}^{2} \mathbf{I}+\tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i}\right) \mathbf{W}_{i}\right]\right.} \end{aligned}
SLNRi=Miσi2+Tr(WiHH~iHH~iWi)∥HiWi∥F2=Tr[(WiH(Miσi2I+H~iHH~i)Wi]Tr(WiHHiHHiWi)
这里假定了有
Tr
(
W
i
H
W
i
)
=
1
\operatorname{Tr}\left(\mathbf{W}_{i}^{H} \mathbf{W}_{i}\right)=1
Tr(WiHWi)=1。 如何求解最优的
W
i
\mathbf{W}_i
Wi呢?
广义特征向量
我们首先有广义特征向量的定义如下:
若有:
A
v
=
λ
B
v
Av = \lambda Bv
Av=λBv
则
v
v
v称为矩阵束
(
A
,
B
)
(\mathbf{A,B})
(A,B)的广义特征向量,
λ
\lambda
λ为对应的广义特征值。 若
B
B
B可逆,可知有
B
−
1
A
v
=
λ
v
B^{-1}Av = \lambda v
B−1Av=λv,即
v
v
v同时也是
B
−
1
A
B^{-1}A
B−1A的特征向量。 而当
A
,
B
A, B
A,B为共轭对称时,则更有如下结论:
不同广义特征值对应的广义特征向量关于A,B均正交。 即:
v
i
H
B
v
j
=
v
i
H
A
v
j
=
0
,
∀
i
≠
j
v_i^HBv_j=v_i^HAv_j=0, \forall i\neq j
viHBvj=viHAvj=0,∀i=j
这个结论有两种证明方法:
证1
设
A
v
1
=
λ
1
B
v
1
,
A
v
2
=
λ
2
B
v
2
A v_{1}=\lambda_{1} B v_{1}, A v_{2}=\lambda_{2} B v_{2}
Av1=λ1Bv1,Av2=λ2Bv2。 有:
λ
1
v
2
H
B
v
1
=
v
2
H
A
v
1
=
v
2
H
A
H
v
1
=
(
v
1
H
A
v
2
)
H
=
(
λ
2
v
1
H
B
v
2
)
H
=
λ
2
v
2
H
B
H
v
1
=
λ
2
v
2
H
B
v
1
\lambda_{1} v_{2}^{H} B v_{1}=v_{2}^{H} A v_{1}=v_{2}^{H} A^{H} v_{1}=\left(v_{1}^{H} A v_{2}\right)^{H}=\left(\lambda_{2} v_{1}^{H} B v_{2}\right)^{H}=\lambda_{2} v_{2}^{H} B^{H} v_{1}=\lambda_{2} v_{2}^{H} B v_{1}
λ1v2HBv1=v2HAv1=v2HAHv1=(v1HAv2)H=(λ2v1HBv2)H=λ2v2HBHv1=λ2v2HBv1
这里利用了当
A
,
B
A,B
A,B为共轭对称时,广义特征值必定为实数的性质,这是因为有:
v
H
A
v
=
λ
v
H
B
v
v^HAv = \lambda v^HBv
vHAv=λvHBv
而由于 λ 1 ≠ λ 2 \lambda_1\neq \lambda_2 λ1=λ2,因此 v 2 H B v 1 = 0 v_{2}^{H} B v_{1}=0 v2HBv1=0, 那么显然 v 2 H A v 1 = 0 v_{2}^{H} A v_{1}=0 v2HAv1=0。
证2
另一种是对B的常见处理套路, 由于B共轭对称,因此有
B
=
L
L
H
B = LL^H
B=LLH为其 Cholesky分解。
因此,我们有:
A
v
=
λ
L
L
H
v
⇒
L
−
1
A
L
−
H
y
=
y
Av = \lambda LL^Hv\Rightarrow L^{-1}AL^{-H}y=y
Av=λLLHv⇒L−1AL−Hy=y
其中
y
=
L
H
v
y=L^Hv
y=LHv, 为矩阵
L
−
1
A
L
−
H
L^{-1}AL^{-H}
L−1AL−H的特征向量。因此,
y
1
=
L
H
v
1
y_1=L^Hv_1
y1=LHv1和
y
2
=
L
H
v
2
y_2=L^Hv_2
y2=LHv2为两个不同的特征向量,有:
y
1
H
y
2
=
0
⇒
v
1
H
L
L
H
v
2
=
0
→
v
1
H
B
v
2
=
0
y_1^Hy_2 = 0 \Rightarrow v_1^HLL^Hv_2 = 0\rightarrow v_1^HBv_2 = 0
y1Hy2=0⇒v1HLLHv2=0→v1HBv2=0
得证。
广义瑞丽熵
至此,我们可知, 令
T
T
T为广义特征向量组成的矩阵(广义特征空间), 我们比能找到有:
T
i
H
H
i
H
H
i
T
i
=
Λ
i
T
i
H
(
M
i
σ
i
2
I
+
H
~
i
H
H
~
i
)
T
i
=
I
\begin{aligned} \mathbf{T}_{i}^{H} \mathbf{H}_{i}^{H} \mathbf{H}_{i} \mathbf{T}_{i} &=\mathbf{\Lambda}_{i} \\ \mathbf{T}_{i}^{H}\left(M_{i} \sigma_{i}^{2} \mathbf{I}+\tilde{\mathbf{H}}_{i}^{H} \tilde{\mathbf{H}}_{i}\right) \mathbf{T}_{i} &=\mathbf{I} \end{aligned}
TiHHiHHiTiTiH(Miσi2I+H~iHH~i)Ti=Λi=I
这是根据刚刚所述的,当A, B均为共轭对称矩阵时的正交特性。因此两者必定都能得到对角阵,我们可以对
T
T
T的每一列予以scale,使第二个式子成立。
Λ
i
\Lambda_i
Λi则是普通的对角阵。 由于
T
T
T满秩,我们可以有
W
i
=
T
i
X
i
\mathbf{W}_{i}=\mathbf{T}_{i} \mathbf{X}_{i}
Wi=TiXi, 从而将对
W
W
W的设计变为对
X
X
X的设计。此时,SLNR可以化为:
S
L
N
R
=
Tr
(
X
i
H
Λ
i
X
i
)
Tr
[
X
i
H
X
i
]
SLNR = \frac{\operatorname{Tr}\left(\mathbf{X}_{i}^{H} \boldsymbol{\Lambda}_{i} \mathbf{X}_{i}\right)}{\operatorname{Tr}\left[\mathbf{X}_{i}^{H} \mathbf{X}_{i}\right]}
SLNR=Tr[XiHXi]Tr(XiHΛiXi)
对于该式,我们令
X
X
X的奇异值分解为:
X
i
=
U
i
[
Σ
i
0
]
V
i
H
\mathbf{X}_{i}=\mathbf{U}_{i}\left[\begin{array}{c} \boldsymbol{\Sigma}_{i} \\ \mathbf{0} \end{array}\right] \mathbf{V}_{i}^{H}
Xi=Ui[Σi0]ViH
代入,可得:
Tr
(
X
i
H
Λ
i
X
i
)
Tr
[
X
i
H
X
i
]
=
Tr
(
[
Σ
i
0
]
U
i
H
Λ
i
U
i
[
Σ
i
0
]
)
∑
i
=
1
m
κ
i
2
=
∑
i
=
1
m
κ
i
2
(
∑
j
=
1
N
λ
j
∣
u
j
i
∣
2
)
∑
i
=
1
m
κ
i
2
\frac{\operatorname{Tr}\left(\mathbf{X}_{i}^{H} \boldsymbol{\Lambda}_{i} \mathbf{X}_{i}\right)}{\operatorname{Tr}\left[\mathbf{X}_{i}^{H} \mathbf{X}_{i}\right]}=\frac{\operatorname{Tr}\left(\left[\begin{array}{cc} \boldsymbol{\Sigma}_{i} & \mathbf{0} \end{array}\right] \mathbf{U}_{i}^{H} \boldsymbol{\Lambda}_{i} \mathbf{U}_{i}\left[\begin{array}{c} \boldsymbol{\Sigma}_{i} \\ \mathbf{0} \end{array}\right]\right)}{\sum_{i=1}^{m} \kappa_{i}^{2}}=\frac{\sum_{i=1}^{m} \kappa_{i}^{2}\left(\sum_{j=1}^{N} \lambda_{j}\left|u_{j i}\right|^{2}\right)}{\sum_{i=1}^{m} \kappa_{i}^{2}}
Tr[XiHXi]Tr(XiHΛiXi)=∑i=1mκi2Tr([Σi0]UiHΛiUi[Σi0])=∑i=1mκi2∑i=1mκi2(∑j=1Nλj∣uji∣2)
κ
i
\kappa_i
κi为
Σ
i
\Sigma_i
Σi的对角元素,
λ
j
\lambda_j
λj为
Λ
i
\Lambda_i
Λi的对角元素, 我们可以不妨设为降序排列,这显然可以通过调整
T
T
T矩阵得到。由
U
\mathbf{U}
U矩阵的酉性,我们有:
0
≤
∣
u
j
i
∣
2
≤
1
and
∑
j
=
1
N
∣
u
j
i
∣
2
=
1
0 \leq\left|u_{j i}\right|^{2} \leq 1 \quad \text { and } \quad \sum_{j=1}^{N}\left|u_{j i}\right|^{2}=1
0≤∣uji∣2≤1 and j=1∑N∣uji∣2=1
因此, 要想令分子最大化, 必须有
u
j
j
=
1
and
u
j
i
=
0
for
j
≠
i
and
j
=
1
,
…
,
m
u_{j j}=1 \quad \text { and } \quad u_{j i}=0 \text { for } j \neq i \text { and } j=1, \ldots, m
ujj=1 and uji=0 for j=i and j=1,…,m
故而,
X
X
X是一个对角阵!
而
W
=
T
X
W=TX
W=TX,因此,
W
W
W就是广义特征向量的线性组合。