Experimental Performance Evaluation of Cell-free Massive MIMO Systems Using COTS RRU with OTA Recipr

本文链接：https://blog.csdn.net/m0_51143578/article/details/143171028

文章目录

0. Abstract

下行同频多用户传输是无蜂窝大规模多输入多输出（MIMO）系统的基本技术，而发送端的信道状态信息（CSI）的可用性是一个基本要求。为了避免在时分双工系统中进行CSI反馈，应该通过校准上行信道参数来获得下行CSI，这是由于射频电路与收发器不匹配所导致的。在本文中，提出了一种用于空中互易性校准的参考信号设计。频域生成的参考信号可以充分利用第五代（5G）新无线电的灵活帧结构，它可以完全透明地（transparent）应用于商用现成（Commercial off-the-shelf，COTS）的远程无线电单元（RRU）和商用用户设备。为了进一步对多个远程无线电单元（RRUs）进行校准（calibration），提出了一种基于遗传算法的交错RRU分组方法，并且还提出了一种平均Argos校准算法。我们开发了一个使用商用现成（COTS）远程无线电单元的无蜂窝大规模MIMO原型系统，展示了校准误差的统计特性以及校准算法的有效性，并评估了校准延迟对不同协作传输方案的影响。

Index Terms—无蜂窝大规模MIMO（Cell-free massive MIMO），分布式MIMO（distributed MIMO），空中互易性校准（OTA reciprocity calibration），相位同步

在这里，transparent 的意思是“对…完全透明”，即“对…没有影响或干扰”。换句话说，它指的是该设计或技术能够在不改变或影响现有商用设备（如COTS远程无线电单元（RRUs）和商用用户设备）的情况下工作。

I. INTRODUCTION

频谱效率（SE）是蜂窝移动通信系统设计中的关键参数指标之一。对于采用大规模多输入多输出（MIMO）技术的第五代（5G）系统，SE可以提高到50 bps/Hz以上。通过在现有蜂窝系统中部署远程无线电单元（RRUs），并引入协调多点（coordinated multipoint，CoMP）传输技术，SE可以进一步提升。相关技术也被称为分布式MIMO、协作MIMO、多传输和接收点（multi-TRP）或无蜂窝大规模MIMO（CF-mMIMO）。CF-mMIMO 可以被视为分布式MIMO或CoMP的演进。它通过可扩展的实现方案（scalable implementation），来实现协调的多用户传输，从而大幅提升SE。

在无蜂窝大规模MIMO（CF-mMIMO）系统中，采用了相干下行传输（coherent downlink transmission）来实现空分复用，这通常依赖于中央处理单元（CPU）已知的下行链路信道状态信息（CSI）。通过利用时分双工（time-division duplex，TDD）系统中空中（over-the-air，OTA）信道的互易性，可以避免对下行CSI的反馈，从而减少信令开销。然而，在实际系统中，总体信道由OTA传播系数和由射频（RF）收发器引入的传输系数组成。由于RF发射器和接收器具有不同的传输系数，实际中上行和下行信道并不互易。上下行信道的不匹配包括幅度和相位失配。

研究表明，当相位失配超过 $15^\circ$ 时，CF-mMIMO系统的下行链路性能损失会很大。实际上，互易性校准（reciprocity calibration）或相位同步（phase synchronization）是阻碍4G和5G商用系统中协调多点（CoMP）技术应用的原因之一。特别是多个分布式远程无线电单元（RRUs）之间的同步问题。3GPP的一个工作组正在研究用于5G新无线电（NR）18版的 multi-TRP 的相干传输，并且互易性校准（或在某些文献中称为相位同步）是下行和上行信道之间的关键问题。因此，空中互易性校准是面向未来6G的CF-mMIMO中的重要技术。

有两种主要的校准方法，分别是硬件校准和OTA校准。前者需要额外的参考天线，而后者则不需要额外的硬件。两种方法都已经在TDD大规模MIMO系统中得到了广泛的研究。然而，与集中式大规模MIMO系统不同，在CF-mMIMO系统中，多个远程无线电单元（RRUs）被物理部署在不同的位置，因此OTA校准是理想的选择。OTA校准可以通过在RRUs之间或在RRUs与用户设备（UE）之间传输已知的参考信号（RS）来实现。前者称为自校准（self-calibration），后者称为用户设备辅助校准（UE-assisted calibration）。这两种算法都可以获得RRUs的校准系数，而自校准更优，因为它对用户设备是透明的。通过上行链路的CSI和从收集到的校准信号中获得的校准系数，可以使用校准后的下行预编码来实现相干传输。

OTA互易性校准（OTA reciprocity calibration）已经被广泛研究用于分布式MIMO。研究[15]探讨了多个RRUs的校准，并提出了一种基于集群的校准方法（a cluster-based calibration method）。到目前为止，分布式MIMO已经在WiFi/长期演进（LTE）网络中进行实验研究。研究[16]和[17]实现了基于WiFi的分布式MIMO，其中AirSync使用带外信号进行同步，MegaMIMO使用一个主设备与多个从设备进行同步。在研究[18]中，提出了一种分层同步架构来实现整个网络的相位同步。研究[18]的设计兼容于5G小基站，并已在LTE系统中验证。然而，研究[18]的方法需要虚拟用户设备（UEs）的部署来支持校准。研究[19]和[20]使用开放空口平台实现了分布式MIMO系统，并提出了主从校准算法和基于RRU分组的快速校准方法，该方法能够在20毫秒内完成校准。研究[21]中实现了分布式MIMO系统，并提出了一种带权最小二乘校准方法，该方法采用了来自用户设备的CSI反馈。

对于5G演进或6G系统，校准信号应该被标准化，以实现设备之间的互操作性。此外，还需要对超快速、低复杂度、低开销的校准方法进行进一步研究，以实现CF-mMIMO的可扩展网络化。此外，目前尚无针对 CF-mMIMO 系统在可扩展预编码和不完美校准条件下的实验系统的公开性能评估。本文的主要研究贡献总结如下：

我们提出了一种基于组的快速OTA互易性校准方案（a group-based fast OTA reciprocity calibration scheme），该方案结合了遗传算法辅助的RRU分组和与5G NR兼容的校准参考信号（compatible calibration reference signal，CARS）。与[18]–[21]不同，此校准过程不需要用户设备（UE）反馈，透明地支持商用现成（COTS）的RRU和商用UE，并且特别适用于根据开放无线接入网络规范实施的RRU。CARS可以在一个时隙中对64个天线进行校准，使用四个正交频分复用（OFDM）符号（例如，30 kHz子载波间隔下，约为134微秒）。
本研究提出了一种改进的适用于CF-mMIMO的Argos校准方法，它可以充分利用多个RRU之间的无线链路来提高校准精度并降低校准复杂度。
在本研究中，开发了一个与5G COTS RRU兼容的CF-mMIMO原型系统，该系统与5G商用UE完全兼容。利用原型UE，分析和评估了实验系统中获得的校准系数，包括校准误差的统计特性以及不同校准算法的性能。基于测试平台（testbed），我们展示了集中式和分布式下行链路CF-mMIMO预编码的性能评估。

II. RRU GROUPING AND DESIGN OF A 5G NR-COMPATIBLE CALIBRATION SIGNAL

在CF-mMIMO系统中，所有RRUs都应校准以实现动态下行链路的相干传输。基于位置的聚类通常是减少具有大量RRUs的CF-mMIMO系统校准维度（reduce the calibration dimension）的有效方法。在[15]中，提出了簇间相对校准（intercluster relative calibration）和簇内最小二乘校准方法（intracluster least squares calibration）。文中提出了一种替代的校准信号传输方法，用于对簇内的RRUs进行校准。该方法表现出最佳性能，但校准时间较长。

在本研究中，簇内的RRUs被分为两组，并在两组之间传输空间域正交校准信号（spatial-domain orthogonal calibration signals），从而减少校准时间。在这一部分中，我们研究了最佳RRU分组方案，并为这两组设计了一个与5G NR兼容的校准信号。

A. Interleaved RRU Grouping with Genetic Algorithm

在[19]中，提出了一种基于分组的校准方法。然而，作者没有提供获得最佳分组的有效方法。直观上，为了获得更好的校准信噪比（SNR），这两组RRUs应尽可能多地交错在一起。需要注意的是，当RRUs被部署时，RRUs之间的校准信噪比主要与大尺度衰落有关，即RRUs之间的相对距离。为了提高基于分组校准的性能，我们最小化两组RRUs之间距离的总和。因此，我们将这一最小化问题公式化如下：

$\begin{aligned} \min &\sum_{p \in \mathcal{P}} \sum_{q \in \mathcal{Q}} d_{p, q}\\ \text { s.t. } &\mathcal{P} \cup \mathcal{Q}=\mathcal{T} \text { and } \mathcal{P} \cap \mathcal{Q}=\emptyset \text { and }\|\mathcal{P}|-| \mathcal{Q}\| \leq 1 \end{aligned}$

其中， $\mathcal{T}$ 是所有远程无线电单元（RRUs）的集合，天线被分为两个集合 $\mathcal{P}$ 和 $\mathcal{Q}$ ，其中 $\mathcal{P}$ 组有 $M$ 个天线， $\mathcal{Q}$ 组有 $N$ 个天线， $d_{p,q}$ 是 $P$ 组中天线 $p$ 和 $Q$ 组中天线 $q$ 之间的距离。需要注意的是，为了简化问题，两个组中的RRUs数量差异小于或等于1。在这一约束下，两组中的RRUs数量保持平衡。

当RRUs数量不大时，我们可以使用穷举搜索来获得优化问题（问题1）的最优解。然而，当RRUs数量较大时，问题的复杂性较高。幸运的是，分组在RRUs部署后只需要执行一次。这个优化问题可以用二进制变量描述，然后通过遗传算法（GA）求解。遗传算法是一种受自然选择过程启发的启发式搜索算法，通常用于通过依赖生物启发的算子（如变异、交叉和选择）生成高质量的优化和搜索问题的解[25][26]。由于GA是解决上述问题的经典算法，这里不再详细介绍其实现。

在RRUs分组之后，我们可以在两组之间发送多天线正交信号导频（multiantenna orthogonal pilots），从而实现快速校准。然而，目前的5G标准并没有明确支持RRUs之间相互发送信号。幸运的是，我们可以利用5G NR中的动态可配置时隙（dynamic configurable time slots）来实现这一功能。

B. Slot configuration for calibration of RRU groups

在这里插入图片描述
图1显示了一个周期为2.5毫秒的帧配置。特殊时隙（S-slot）经过特殊设计，可对两个RRU组进行校准。组1的 S-slot 配置采用单个保护间隔（guard period，GP）的传统模式，而组2的配置有两个GP。由于这两个RRU组在 S-slot 中的下行链路/上行链路切换点的位置不同，我们可以在这两个组之间传输和接收参考信号。

如图所示，当RRU组1的第5和6个符号正在发送CARS时，RRU组2处于GP和处于接收状态，同样，当RRU组2的第7和8个符号正在发送CARS时，RRU组1处于接收状态。因此，我们可以在两组之间实现校准信号的传输和接收。请注意，CPU不应在这几个符号上调度UE。

观察这个图1，2.5ms内会有5个时隙，这是子载波间隔（SCS）为30 kHz的情况。

此外，由于5G NR通过下行控制信息（downlink control information，DCI）支持动态帧结构的配置，我们可以根据校准周期配置上述的S时隙。对于普通时隙，所有的RRUs可以配置为使用一个共同的S时隙，以避免交叉链路干扰。

为了评估校准性能，我们还在S时隙中插入了下行链路的CSI参考信号（CSI-RS）和上行链路的导频参考信号（SRS），用于测量中央处理单元（CPU）和用户设备（UEs）之间的下行-上行CSI。

C. CARS design considering uplink timing advance

在这里插入图片描述

500us/14=35.7us

在5G-NR系统中，考虑到传播延迟和TDD（时分双工）切换时间，[33]要求上行链路的时间提前；因此，上行链路和下行链路的时间错开大约13微秒（适用于Sub6 GHz频段）。如图2所示，组2中的RRU提前13微秒在GP（保护间隔）中开始接收。商业UE（用户设备）知道这个时间提前，而组1中的商业RRU有它们自己的 timing。如果组1中的RRU仅仅在第6个符号时发送CARS，那么组2的RRU无法正确接收到信号。因此，这两组RRU在使用图1中的 S-slot 配置时，彼此传输信号会出现不同步的情况。

需要注意的是，当基带处理器能够处理时域OFDM（正交频分复用）符号并调整TDD切换点时，我们可以在GP中发送和接收CARS。然而，对于一些商业RRU，如使用选项7-2标准的RRU，[28]规定该RRU具有低级物理层处理功能，包括快速傅里叶变换（FFT）/逆快速傅里叶变换（IFFT）、循环前缀（CP）添加和移除、以及相位补偿。因此，这种类型的 COTS RRU 仅从基带单元接收下行链路的频域信号，并将上行链路的频域信号发送到基带单元。因此，有必要设计一种考虑标准化问题的频域校准方案。

为了确保CPU接收到正确的校准信号，我们提出了一种两符号频域CARS方法。根据两个RRU组中的天线数量，设计了一组多天线正交参考信号（a set of multiantenna orthogonal reference signals）。第 $i$ 根天线的 frequency-domain reference signal CARS $_1$ 表示为：

$\mathbf{x}_i = [x_{i,1}, x_{i,2}, \ldots, x_{i, N_{\text{FFT}}}]^T$

其中， $N_{\text{FFT}}$ 是FFT的长度，对应的 CARS $_2$ 的第 $n$ 个元素表示为：

$\tilde{x}_{i,n} = x_{i,n} \exp \left( \frac{j 2\pi L_{\text{CP}}}{N_{\text{FFT}}} n \right),$

其中 $L_{\text{CP}}$ 表示相移的长度。也就是说，每个样本都经历了一个 $L_{\text{CP}}$ 的相移。在进行IFFT（逆快速傅里叶变换）和添加循环前缀（CP）之后，这两个符号的特性如图3所示：前一个符号的有效数据是后一个符号的 $N_{\text{FFT}}$ 个样本的循环前缀（CP）。

在这里插入图片描述

这个图片什么意思，没太看懂。原始的 calibration sequence 该如何恢复？

相移会导致时域信号循环右移，将OFDM symbol的右边截取出来放到CP部分，刚好构成两个完整的信号。

根据上述设计，RRUs开始在第一个时域符号中接收校准信号，接收长度为 $L_{\text{CP}}$ ；然后，在去除循环前缀（CP）后，可以获得完整的参考信号。需要注意的是，接收到的校准序列和原始校准序列之间存在一定的相移，我们可以通过频域中的相位旋转来恢复。因此，该设计对于使用 Option 7-2 format 的RRU来说是完全透明的[28]。结合图3中显示的CARS，我们在接收端获得了一个完整的OFDM符号用于校准。

商业RRU用于小基站系统时，通常不具备内部校准功能，因此所有RRU的天线都应该发送校准信号。当RRU数量较多时，为了获得最佳的信道估计，校准信号应是正交的。以5G NR中的SRS（参考信号）为例，一个OFDM符号可以支持多达16个天线端口。考虑到小基站的覆盖范围通常较小，并且校准系数在频域中的变化很小，即使是32个天线端口也可以进行复用。

因此，根据图1中的时隙配置，我们可以在四个OFDM符号内对两组共64根天线进行校准。考虑到子载波间隔为30 kHz，校准的时间消耗大约为134微秒。

最后，可以通过类似于导频复用的方式在集群之间复用CARS[29][30]，并根据[15]在集群之间实施校准。

III. GROUP-BASED CALIBRATION METHOD

为了在低复杂度的情况下进一步提高校准精度，本节我们研究了基于组的校准算法，包括传统的总最小二乘法 (total least-square，TLS) 和改进的 Argos 算法。

A. TLS calibration algorithm

基于传输给彼此的校准信号，每个接收器首先进行信道估计以获得两个 RRU 组之间的频域信道矩阵。在子载波上的两个 RRU 组之间的信道矩阵分别记为 $\mathbf{H}_1$ 和 $\mathbf{H}_2$ ，其模型如下：

$\mathbf{H}_1 = \mathbf C_{\text{rx},2} \mathbf{H} \mathbf C_{\text{tx},1}$ $\mathbf{H}_2 =\mathbf C_{\text{rx},1} \mathbf{H}^T \mathbf C_{\text{tx},2}$

其中， $\mathbf{H}$ 是 RRU 组 2 和 RRU 组 1 之间的 OTA 信道矩阵； $\mathbf C_{\text{rx},1}$ 和 $\mathbf C_{\text{tx},1}$ 分别是组 1 中接收和发射 RRU 的射频失配系数（RF mismatch coefficients）； $\mathbf C_{\text{rx},2}$ 和 $\mathbf C_{\text{tx},2}$ 分别是组 2 中接收和发射 RRU 的射频失配系数，每个失配系数都被建模为对角矩阵。定义了如下校准矩阵（calibration matrices）：

$\mathbf{C}_{1}=\mathbf{C}_{{\mathrm{rx},1}}\mathbf{C}_{{\mathrm{tx},1}}^{-1},$

$\mathbf{C}_{2}=\mathbf{C}_{{\mathrm{rx},2}}\mathbf{C}_{{\mathrm{tx},2}}^{-1},$
这些是组 1 和组 2 中 RRU 的校准系数。根据上述校准矩阵，以下等式成立：
$\mathbf{H}_1 \mathbf{C}_1 = \mathbf{C}_2 \mathbf{H}_2^T. \tag{8}$ 校准向量定义为： $\mathbf{c}_1 = \text{diag}(\mathbf{C}_1), \quad \mathbf{c}_2 = \text{diag}(\mathbf{C}_2),$ $\mathbf{c}_1 = \begin{bmatrix} c_{1,1} & \cdots & c_{1,M} \end{bmatrix}^T,$ $\mathbf{c}_2 = \begin{bmatrix} c_{2,1} & \cdots & c_{2,N} \end{bmatrix}^T,$ 然后，所有 RRU 的校准向量可以表示为：
$\mathbf{c}_{\text{cal}} = \begin{bmatrix} \mathbf{c}_1^T, \mathbf{c}_2^T \end{bmatrix}^T.$ 根据公式 (8)，在存在噪声的情况下，我们可以建立以下 TLS 优化目标函数：
$\begin{aligned}&\underset{\mathbf{c}_{\mathrm{cal}}}{\operatorname*{\arg\min}}\left\|\mathbf{H}_1\mathbf{C}_1-\mathbf{C}_2\mathbf{H}_2^\mathrm{T}\right\|^2\\&\mathrm{s.t.}\left\|\mathbf{c}_{\mathrm{cal}}\right\|^2=1&\end{aligned} \tag{9}$

公式 (9) 中描述的校准模型与文献 [31] 中提出的 UE 辅助校准模型相同。上述目标函数可以表示为：

$\begin{array}{l} J\left(\mathbf{c}_{1}, \mathbf{c}_{2}\right)=\left\|\mathbf{H}_{1} \mathbf{C}_{1}-\mathbf{C}_{2} \mathbf{H}_{2}^{\mathrm{T}}\right\|^{2} \\ =\operatorname{Tr}\left(\mathbf{C}_{1}^{\mathrm{H}} \mathbf{H}_{1}^{\mathrm{H}} \mathbf{H}_{1} \mathbf{C}_{1}+\mathbf{C}_{2} \mathbf{H}_{2}^{\mathrm{T}} \mathbf{H}_{2}^{*} \mathbf{C}_{2}^{\mathrm{H}}\right. \\ \quad \left.\quad-\mathbf{C}_{2} \mathbf{H}_{2}^{\mathrm{T}} \mathbf{C}_{1}^{\mathrm{H}} \mathbf{H}_{1}^{\mathrm{H}}-\mathbf{H}_{1} \mathbf{C}_{1} \mathbf{H}_{2}^{*} \mathbf{C}_{2}^{\mathrm{H}}\right) . \end{array}$

B. Averaged Argos calibration algorithm

为降低实现复杂度，我们提出了一种改进的 Argos 校准方法。为简化以下描述，忽略信道噪声。基于两组信道矩阵，我们有以下关系式：
${{\bf{\Theta }}_1} = {{{\bf{c}}}_{2}}{\left[ {{\rm{diag}}\left( {{{\bf{C}}}_{1}^{ - 1}} \right)} \right]^{\rm{T}}} = \left[ {\begin{array}{c c c c} {\frac{{{c_{2,1}}}}{{{c_{1,1}}}}} & {\frac{{{c_{2,1}}}}{{{c_{1,2}}}}} & \cdots & {\frac{{{c_{2,1}}}}{{{c_{1,M}}}}} \\ {\frac{{{c_{2,2}}}}{{{c_{1,1}}}}} & {\frac{{{c_{2,2}}}}{{{c_{1,2}}}}} & \cdots & {\frac{{{c_{2,2}}}}{{{c_{1,M}}}}} \\ \vdots & \vdots & \vdots & \vdots \\ {\frac{{{c_{2,N}}}}{{{c_{1,1}}}}} & {\frac{{{c_{2,N}}}}{{{c_{1,2}}}}} & \cdots & {\frac{{{c_{2,N}}}}{{{c_{1,M}}}}} \end{array}} \right]$

其中 ${\rm{diag}}\left( {{{\bf{C}}}_{1}^{ - 1}} \right)$ 是向量 ${{\bf{c}}_{1}}$ 的每个元素的倒数矩阵。矩阵 ${{\bf{\Theta }}_1}$ 是一个秩为 1 的矩阵。我们定义：
${{{\bf{\Theta }}}_2} = {{{\bf{H}}}_2} \oslash {{\bf{H}}}_1^{\rm{T}} = {{{\bf{c}}}_{1}}{\left[ {{\rm{diag}}\left( {{{\bf{C}}}_{2}^{ - 1}} \right)} \right]^{\rm{T}}} = \left[ {\begin{array}{c c c c} {\frac{{{c_{1,1}}}}{{{c_{2,1}}}}}&{\frac{{{c_{1,1}}}}{{{c_{2,2}}}}}& \cdots &{\frac{{{c_{1,1}}}}{{{c_{2,N}}}}}\\ {\frac{{{c_{1,2}}}}{{{c_{2,1}}}}}&{\frac{{{c_{1,2}}}}{{{c_{2,2}}}}}& \cdots &{\frac{{{c_{1,2}}}}{{{c_{2,N}}}}}\\ \vdots & \vdots & \vdots & \vdots \\ {\frac{{{c_{1,M}}}}{{{c_{2,1}}}}}&{\frac{{{c_{1,M}}}}{{{c_{2,2}}}}}& \cdots &{\frac{{{c_{1,M}}}}{{{c_{2,N}}}}} \end{array}} \right]$

考虑使用组 2 中的第 $N$ 根天线作为参考天线来描述该校准算法。 ${{\bf{\Theta }}_2}$ 的最后一列定义为 ${\bm{\vartheta }}$ 。然后，将 ${{\bf{\Theta }}_2}$ 的每一列乘以 ${{\bf{\Theta }}_1}$ 的对应对角元素，得到：
${{\bf{\hat \Theta }}_2} = {{\bf{\Theta }}_2}{\rm{diag}}\left( {{{\bf{\Theta }}_1}} \right).$
接下来，我们构造如下矩阵：
${\bf{\Theta }} = \left[ {\begin{array}{c} {{{{\bf{\hat \Theta }}}_2}}\\ {{{\bf{\Theta }}_1}} \end{array}} \right]{\rm{diag}}\left( {\bm{\vartheta }} \right).$

可以看到， ${\bf{\Theta }}$ 的所有列都等于 ${{{\bf c}_{{\rm{cal}}}}}/{{{c_{2,N}}}}$ ，除了包含全 1 的最后一列（在实际操作中，最后一行可以直接设为 1，不参与计算）。我们可以通过按列平均矩阵来获得最终的校准系数。

然而，在实际应用中，信道估计并不完美，尤其是在分布式 MIMO 系统中，当两个 RRU 之间的距离过大时，校准信号会经历严重衰落，导致较差的 SNR，最终影响校准的准确性。如果某些解偏离正常值过多，算法中的平均处理不可避免地会导致性能下降，因此需要去除一些异常解。因此，对 ${{\bf{\Theta }}_1}$ 和 ${{\bf{\Theta }}_2}$ 进行以下操作：

找到组 1 中与组 2 所有天线的距离和最小的天线 $i$ ，找到组 2 中与组 1 所有天线的距离和最小的天线 $j$ 。
找到所有在组 1 和组 2 中的 RRU 对，其 SNR 低于指定阈值。例如，假设天线对 $\left( {p,q} \right)$ 的 SNR 低于给定阈值，其中 $p$ 是组 1 的天线， $q$ 是组 2 的天线，则令 ${\left[ {{{\bf{\Theta }} _1}} \right]_{q,p}} = 0$ 和 ${\left[ {{{\bf{\Theta }} _2}} \right]_{p,q}} = 0$ 。注意，零置操作不会在 ${{\bf{\Theta }}_1}$ 的第 $j$ 行或 ${{\bf{\Theta }}_2}$ 的第 $i$ 行上执行。

基于上述结果，分别对 ${{\bf{\Theta }}_2}$ 和 ${{\bf{\Theta }}_1}$ 的第 $j$ 行和第 $i$ 行进行校准，然后取平均值。该 Argos 多天线平均算法需要 $2 MN$ 次除法， $2 MN$ 次乘法，以及 $MN$ 次加法来完成校准，显示出比 TLS 更低的复杂度和更易于硬件实现的优点。

C. Simulation results

图 4 显示了不同校准算法下不同系统配置的校准系数相位误差（以度为单位）。在模拟中，RF 增益的幅度假设为方差为 1 dB 的对数正态分布，相位假设为范围为 $(-\pi, \pi)$ 的均匀分布。在模拟中，有两个 RRU，每个 RRU 配备 8 (或 16) 根天线。RRU 间信道建模为独立同分布（i.i.d.）瑞利衰落。考虑到校准系数的幅度误差对整体性能的影响较小[7,32]，我们只关注相位误差。为了评估相位校准的准确性，我们对校准系数以一根天线为参考进行归一化。

从图 4 可以看出，TLS 明显优于 Argos，在校准 SNR 为 25 dB 时平均相位误差小于 1 $^\circ$ 。使用单一参考天线的 Argos 校准性能较差，在校准 SNR 为 31 dB 时误差约为 4 $^\circ$ 。在多天线平均后，Argos 的校准性能有所提高，例如对 8 根天线进行平均时获得了 8 dB 以上的 SNR 增益。*考虑到复杂度和准确性，我们可以在实际系统中通过多天线平均的方法提高 Argos 校准的精度。

在这里插入图片描述

接下来，我们将展示 GA 分组和平均 Argos 算法在实际 RRU 部署中的性能。对于大尺度衰落，使用以下模型[33]：
$\lambda\left(d\right)=2\bar{\lambda}[1+\left(1+d/d_0\right)^\alpha]^{-1},$ 其中 $\bar \lambda$ 表示参考点的路径损耗，计算公式为
$\bar \lambda_{\rm dB} = - 34.5 - 20{\log _{10}}\left( {{d_0}} \right) - {N_{\rm NF}} - 10{\log _{10}}\left( {N_{\rm BW}} \right) - {N_0}.$

参考距离 ${d_0}$ 设为 10 米。 ${N_{\rm NF}}$ 表示噪声系数，设为 9 dB， ${N_0}$ 是 -174 dBm/Hz 的热噪声功率密度，系统带宽 ${N_{\rm BW}}$ 为 1 MHz。RRU 总数为 8，每个 RRU 配备单根天线。路径损耗指数 $\alpha$ 设为 3.7。RRU 位置在半径 200 米的圆形区域内随机生成 300 次，相应的小尺度衰落也随机生成 300 次。

从图 5 的仿真结果可以看出，TLS 算法在 GA 分组后性能有所提高。在 26 dBm 校准功率下，与随机分组相比，性能提升约 20 $\%$ 。同时也表明，在实际部署中直接平均并非最佳选择。我们可以使用 subsection III-B 小节中的方法选择合适的信道来获得显著的性能提升。

在这里插入图片描述

IV. OTA CALIBRATION TEST RESULTS OF A CF-MMIMO SYSTEM

图6 显示了 CF-mMIMO 原型系统。测试环境如图 7 所示。该系统使用了适用于 5G 室内覆盖的低成本 RRU，工作频段为 4.9 GHz，带宽为 100 MHz。系统中包含四个 RRU 和四个 UE，每个 RRU/UE 配备四根天线。RRU 与前传加速卡之间使用符合开放无线接入网络 (O-RAN) 的演进通用公共无线接口 (evolved common public radio interface，eCPRI)。CPU 通过 IEEE 1588PTPv2 和 SyncE 协议为多个 RRU 提供时间同步和参考时钟。每个 RRU 都有一个独立的本地振荡器 (LO)，但一个 RRU 内的四个 RF 链路共享同一个 LO。原型 UE 使用与 CPU 相似的硬件平台。

在这里插入图片描述

我们将 CPU 端的四个 RRU 分为两组，使用图1 所示的帧结构。两组 RRU 之间的校准信号与上行 SRS 相同，占用 272 个资源块 (RB)。本研究中的信道估计采用基于均匀功率时延分布（uniform power delay profile）的 Wiener 插值。对于下行信道估计，使用具有 16 个正交端口的 CSI-RS。

在实际系统中，很难获得每个 RRU 的完美校准系数，因此合理的基准对于评估实验性能非常重要。在原型系统中，对于 UE 辅助校准，我们考虑了两组 RRU，每组 16 根天线；而对于两组 RRU 的自校准，每组有 8 根天线。如图4 所示，UE 辅助校准的性能更好。此外，对于 UE 辅助校准，CPU 拥有上下行信道，并将其视为完美的 CSI 反馈。因此，我们最终选择 UE 辅助 TLS 作为基准。

接下来，我们从校准系数的时频特性、校准误差的统计特性、校准算法的性能以及 CF-mMIMO 下行性能的角度详细评估实验数据。除非特别说明，校准算法为基于 TLS 的自校准。

B. Time-frequency characteristics of the calibration coefficients

我们将系统中的四个RRU分为两组。第一组中的两个RRU的天线编号为，RRU₁的天线编号为1到4，RRU₂的天线编号为5到8；第二组中的两个RRU的天线编号为，RRU₃的天线编号为9到12，RRU₄的天线编号为13到16。我们以最后一个天线的校准系数为基准进行归一化，因此第16个天线的校准系数为1。

在这里插入图片描述

图8a 显示了 RRU $_1$ 的四根天线在某子载波上校准系数的相位随时间的变化。由于 LO 相位漂移，RRU 的校准系数相位在给定子载波上随时间漂移，相对于中心相位范围约为 -30 $^\circ$ 至 +30 $^\circ$ 。由于 RRU 内四个通道具有相同的 LO，RRU 的校准系数相位具有固定的相位差，且基本同步（basically synchronous）。RRU 内部的相位差在较长时间内保持不变（观测时间为 250 ms）。通常，相位差与环境和温度有关，并在数分钟内变化。然而，由于 LO 相位漂移（phase drift），RF 链路的校准系数会随时间快速变化。图 8b 显示，在 7.5 ms 的间隔内，LO 漂移超过 20 $^\circ$ ，这将显著降低相干联合传输的性能，如后续所示。

在这里插入图片描述
对于 sub-6GHz 系统，局部振荡器（LO）相位漂移在一个时隙内变化很小。由于每个时隙都有解调参考信号，通常情况下，相位漂移对上行链路相干联合接收影响不大。然而，考虑到 SRS 周期通常跨越多个时隙，如图 8b 所示，间隔为 7.5 毫秒（ 30 kHz 子载波间隔对应15 个时隙），校准系数的相位变化超过 $20^\circ$ ，这将显著降低某些基于互易性的下行链路性能，如后面所示。

在这里插入图片描述

图 8c 显示了每个 RRU 的一个天线校准系数随时间的变化。不仅 RRU 之间存在固定相位差，还存在相位异步（phase asynchrony）。此外，由于我们使用第 16 根天线作为参考，第 13 根天线的校准系数相位变化很小，相位变化范围在 $±1.5∘ \pm 1.5^\circ$ 以内。

图8d 显示了每个 RRU 的一个天线校准系数的极坐标图。也可以看出，相位旋转大约在 -30 $^\circ$ 至 +30 $^\circ$ 之间。
在这里插入图片描述

接下来，我们研究校准系数的频域性能。校准信号通过空中传输，传输和接收之间的时延是互易的，理论上校准算法可以消除 OTA 时延。然而，在原型系统中，尽管 RRU 从 1588PTP 包中恢复定时，仍然存在非常小的定时差异。如图e 所示，校准系数的相位基本上随子载波呈线性变化。结果表明，无论是 UE 辅助校准还是自校准，校准系数都包含一个时延，在频域中表现为线性相移。本文中，校准系数的时延以第 16 根天线为参考，且通常在较长时间内保持不变。第 5 根和第 13 根天线的校准系数中包含的时延约为 0.15 ns 和 -0.33 ns，第 1 根和第 9 根天线的时延接近一个采样（约 8 ns）。第 1 根和第 9 根天线在相邻子频带的校准系数变化不明显，而第 5 根和第 13 根天线在不同子频带中存在一定波动，例如在六个相邻 RB（约 2 MHz 带宽）内的波动接近 2 $^\circ$ 。

在这里插入图片描述

备注 1：在共享参考时钟的情况下，原型系统中的 RRU 不存在载波频率偏移 (CFO)。注意，如果 RRU 具有不同的参考时钟，不同 RRU 之间将存在 CFO，校准系数将包含 CFO。可以看到，对于给定子载波，校准系数的相位在 $±30∘ \pm 30^\circ$ 范围内变化，以长期恒定值为中心。由于 RRU 多个通道之间的良好相干性，校准系数的相位差在长时间内几乎保持不变（相位误差在 $±1.5∘ \pm 1.5^\circ$ 内）。当 RRU 能够自校准时，对于每个 RRU，我们只需估计一个校准系数。这样可以减少 OTA 校准的开销，或在相同开销下校准更多 RRU。

备注 2：由于 RRU 多个通道之间的良好相干性，校准系数的相位差在较长时间内几乎保持不变（相位误差在 ±1.5° 以内）。当 RRU 能够自我校准时（例如，商业化的大规模 MIMO RRU），对于每个 RRU，我们只需要估计一个校准系数。这样，OTA 校准的开销可以减少，或者在相同开销的情况下，我们可以校准更多的 RRU。由于校准系数的相位平均值在较长时间内保持不变，我们可以将其作为长期校准系数。在这种情况下，CARS 的开销将显著减少，但在设计联合多用户预编码时应考虑相位误差（本文中相位误差在 ±30° 以内）。

备注 3：考虑到校准系数在几个资源块（RB）上变化较小，我们可以增加 CARS 的子载波带宽。例如，使用 120 kHz 的子载波间隔，可以将一个 CARS 放入一个保护间隔（GP）中。

受限于当前的COTS RRU，本研究中的 CARS 开销仍然较高。然而，考虑到上述讨论，进一步减少开销是可行的。

C. Calibration Error Analysis

V. 结论

在本研究中，我们研究了面向6G的CF-mMIMO系统的TDD OTA校准和相位同步技术。首先，设计了一个兼容5G帧结构的OTA互易性CARS系统，该系统对商用UE和RRU透明，并支持RRU的快速自校准。提出了一种平均Argos校准方法，用于基于组的校准，在复杂度与性能之间实现良好的权衡。我们基于5G商用COTS RRU开发了一个CF-mMIMO原型平台。

基于测试台实验，研究了校准系数的时频特性、校准误差的统计特性，以及集中和本地预编码方案的性能。根据实验结果，针对CF-mMIMO系统的下行 coherent joint transmission CJT提出以下主要发现：

对于通过IEEE 1588 PTP和SyncE同步的 open radio access network （ORAN） RRU:
- local oscillator （LO）phase drift是一个严重的问题。即使进行长期校准，CF-mMIMO系统的复用增益也会显著降低。
- 多个RRU的集中式CJT对OTA校准和同步引入的相位误差极为敏感。为提高CF-mMIMO性能，需要高精度同步，并采用考虑相位误差特性的 robust precoding。
Fully distributed precoding:
- 当层数总数小于或等于每个RRU的天线数时，对LO相位漂移不敏感，但只能获得协作波束成形增益。
- 因此，具有更多相位相干信道的RRU将在未来的CF-mMIMO系统中，特别是在高频段中，仍具备较高吸引力。