Joint Coding-Modulation for Digital Semantic Communications via Variational Autoencoder

最新推荐文章于 2024-10-07 06:31:57 发布

No_one-_-2022

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量963

点赞数 15

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/m0_51143578/article/details/142728939

版权

文章目录

Abstract

语义通信作为一种新兴范式，通过传输与接收端任务最相关的源信息语义，提高了通信效率。大多数现有的方法通常利用神经网络（NN）设计端到端的语义通信系统，这些基于神经网络的语义编码器输出连续分布的信号，并以模拟方式直接发送到信道。本文提出了一种基于变分自编码器（ variational autoencoder，VAE）的数字语义通信的联合编码调制（joint coding-modulation，JCM）框架。我们的方法学习了从源数据到离散星座符号的转移概率，从而避免了数字调制中的不可微分性问题。同时，通过联合设计编码和调制过程，可以使得到的调制策略与实际信道条件相匹配。我们还推导出了一个具有信息论意义的匹配损失函数，用于端到端的训练。图像语义通信的实验验证了我们提出的JCM框架在各种信道条件、传输速率和调制阶数下，相较于最新的基于量化的数字语义编码调制（quantization-based digital semantic coding-modulation）方法具有优越性。此外，随着调制阶数的增加，其与模拟语义通信的性能差距减小，同时还具有硬件实现上的便利性。

I. INTRODUCTION

对于JCM框架的端到端训练，我们利用了变分学习（variational learning）技术，并在信息论的指导下推导出具有物理意义的匹配损失函数。更具体地说，利用Info-Max原理，我们得到了一个不可解的互信息目标函数（intractable mutual information objective function）的变分推理下界（variational inference lower bound），该下界作为JCM框架的损失函数。通过优化该损失函数，编码器-调制器可以最大化互信息，解码器则可以更有效地从接收序列中提取信息，从而提升解码性能。

在图像传输上进行的大量实验验证了JCM框架的三个主要优势。首先，提出的JCM框架在广泛的信噪比（SNR）、调制阶数和传输速率范围内，优于现有的通过量化进行的分离编码调制设计（separate coding-modulation design via quantization），以及基于硬量化的联合设计（hard quantization-based joint design）。其次，JCM在较高调制阶数下表现更好，这为语义通信系统中进行数字调制提供了便利的方法，即通过使用传输设备能够支持的最高调制阶数来实现最佳性能。第三，JCM能够在加性白高斯噪声（AWGN）信道中实现近似高斯分布的概率整形，而无需显式地向神经网络提供输出信号的概率分布，这展示了其与信道条件匹配的能力。

II. PROPOSED JCM FRAMEWORK

A. System Model

如图1所示，所提出的JCM框架作为数字语义通信的端到端设计的系统模型。JCM框架基于VAE（变分自编码器）的概率编码器-解码器架构，并在发射端包含一个联合编码-调制模块，接收端包含两个概率解码器。联合编码-调制模块负责生成信道输入，而两个概率解码器从接收到的信号中恢复源数据和语义信息。具体细节如下所述。

在这里插入图片描述
给定维度为 $k$ 的源数据 $\mathbf{X} \in \mathbb{R}^k$ ，其对应的未知语义信息记为 $\mathbf{S}$ ，需要通过噪声信道进行传输。语义信息 $\mathbf{S}$ 的定义取决于接收端的具体任务。我们将源 $\mathbf{X}$ 建模为由语义信息 $\mathbf{S}$ 通过未知且复杂的条件概率 $p(x|\mathbf{s})$ 生成的。参考图像数据的语义通信设置 [13], [14]，接收端需要同时恢复语义信息和原始源数据，这抽象了许多现实场景中的实际需求，在这些场景中，人类和机器共同参与任务决策。我们将源数据的恢复表示为 $\hat{\mathbf{X}}$ ，语义信息的恢复表示为 $\hat{\mathbf{S}}$ 。发射端和接收端都可以访问一个共享的知识库，实质上是一个包含源数据 $\mathbf{X}$ 及其对应语义信息 $\mathbf{S}$ 的不同样本的数据集。

联合编码调制模块包括一个概率编码器-调制器（probabilistic encoder-modulator）和一个星座符号生成器（constellation symbol generator），该模块从源数据 $\mathbf{X}$ 生成信道输入 $\mathbf{Z} \in \mathbb{C}^n$ ，其中 $n$ 是信道使用次数。具体来说，参数化为带参数 $\theta$ 的神经网络（NN），该概率编码器-调制器被设计为学习转移概率 $p_{en}(\mathbf z|\mathbf{x}, \theta)$ 。根据该转移概率，随机生成信道输入 $\mathbf z$ ，然后通过通信信道发送。值得一提的是，我们使用 Gumbel-Softmax 方法 [31] 来生成可微分的星座符号。关于转移概率模型的公式推导和星座符号序列的生成，我们将在第三节中详细讨论。

与大多数语义通信系统不同，我们的系统中强制要求数字调制。我们考虑一个 $M$ 阶数字调制，其星座符号表示为 $\mathbf{C} = \{c_1, c_2, \dots, c_M\}$ 。也就是说，信道输入 $\mathbf{Z}$ 的每个元素取自集合 $\mathbf{C}$ ，因此我们称 $\mathbf{Z}$ 为星座符号序列。请注意， $\mathbf{Z}$ 在实际传输前会被缩放，以满足平均传输功率约束 $P$ ，即 $\frac{\|\mathbf{Z}\|^2}{n}$ 。我们将信道建模为加性白高斯噪声（AWGN）信道。这样，接收到的序列 $\hat{\mathbf{Z}}$ 可以表示为 $\hat{\mathbf{Z}} = \mathbf{Z} + \epsilon$ ，其中 $\epsilon \sim \mathcal{CN}(0, \sigma^2 I)$ 是信道噪声， $\epsilon$ 的每个元素是从均值为零、方差为 $\sigma^2$ 的复高斯分布中独立抽取的。信道条件由信道信噪比（SNR）表征，定义为 $\frac{P}{\sigma^2}$ 。

接收端包含两个解码器，分别用于重构源数据和语义信息。给定接收到的序列 $\hat{\mathbf{Z}}$ ，两个神经网络分别估计后验分布 $p_{de,o}(\mathbf{X}|\hat{\mathbf{Z}}, \psi)$ 和 $p_{de,s}(\mathbf{S}|\hat{\mathbf{Z}}, \phi)$ ，其中 $\psi$ 和 $\phi$ 分别表示其神经网络的参数。然后，在测试阶段，我们通过最大后验（MAP）解码来恢复源数据和语义信息：

$\hat{\mathbf{X}} = \arg\max_{\mathbf{X}} p_{de,o}(\mathbf{X}|\hat{\mathbf{Z}}, \psi), \tag{1}$ $\hat{\mathbf{S}} = \arg\max_{\mathbf{S}} p_{de,s}(\mathbf{S}|\hat{\mathbf{Z}}, \phi). \tag{2}$

值得注意的是，我们采用了并行架构从 $\hat{\mathbf{Z}}$ 中同时恢复 $\mathbf{X}$ 和 $\mathbf{S}$ 。另一种设计可以是级联架构，即首先恢复 $\mathbf{X}$ 为 $\hat{\mathbf{X}}$ ，然后从 $\hat{\mathbf{X}}$ 中推断 $\mathbf{S}$ 。后者在从 $\hat{\mathbf{X}}$ 推断 $\mathbf{S}$ 时会由于数据处理不等式 [32, Theorem 2.8.1] 引入不可避免的信息损失。因此我们选用前一种架构。

B. Objective Function

我们将 Info-Max [29] 作为 JCM 框架的设计原则。Info-Max 原理，在许多工作中被采用 [29], [33]，旨在最大化互信息。具体来说，我们对编码器-调制器神经网络（NN）的目标是，在接收到的序列 $\hat{\mathbf{Z}}$ 中尽可能多地保留有关语义信息和源数据的信息。因此，我们定义了基于互信息的目标函数，简称为“MI-OBJ”，并建立了如下优化问题：

$\max_\theta I_\theta(\mathbf{S}; \hat{\mathbf{Z}}) + \lambda \cdot I_\theta(\mathbf{X}; \hat{\mathbf{Z}}), \tag{3}$

其中， $\lambda$ 是一个权衡超参数，用于平衡两个互信息项的重要性， $\theta$ 表示概率编码器-调制器的参数。需要指出的是，上述目标函数与信息瓶颈（information bottleneck，IB）原理的目标函数不同，IB 原理 [34] 应用于 [12]。IB 原理旨在在码率限制的情况下找到最佳的源数据编码方案，以保留最大的语义信息。因此，它的目标函数是两个互信息项的差，而我们的方法是两个互信息项的和。

为了将 MI-OBJ 用作我们的损失函数，存在两个主要挑战。首先，MI-OBJ 由于互信息项难以估计。这些高维变量的复杂分布使得难以估计它们的联合分布和边缘分布，这导致 MI-OBJ 的直接优化变得困难。其次，MI-OBJ 仅考虑了编码器-调制器参数 $\theta$ 的优化。然而，接收端的解码器需要与发射端的编码器-调制器一起进行联合训练。因此，我们需要设计一个损失函数，将两个解码器 $p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 和 $p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 的优化也考虑在内。

因此，MI-OBJ 不能直接作为我们神经网络的损失函数。在第 III 节中，我们给出了一个解决方案，提供了一个更低的 MI-OBJ 下界，用于编码器-调制器和解码器的联合优化，以确保星座符号序列的设计能够保留最多的信息，从而解码器能够解码出最优的语义信息。

III. VARIATIONAL LEARNING OF THE JCM FRAMEWORK

本节重点介绍了 JCM 框架的训练过程。如前所述，在 JCM 中，我们需要优化 $p_{en}(\mathbf{z}|\mathbf{x}, \theta)$ 、 $p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 和 $p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 这些概率分布，这属于变分学习（variational learning）的范畴。因此，变分学习中需要新的损失函数以及不同的梯度估计方法来优化这些概率分布。

A. Loss Function Design Based on Variational Inference Lower Bound

在本小节中，我们推导了一个通用的损失函数，用于 JCM 框架的训练，以联合优化发射端的转移概率 $p_{en}(\mathbf{z}|\mathbf{x}, \theta)$ ，以及接收端的概率 $p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 和 $p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 。通常，我们对这一联合训练过程使用迭代策略。具体来说，我们首先固定编码器-调制器神经网络的转移概率 $p_{en}(\mathbf{z}|\mathbf{x}, \theta)$ ，然后更新接收端的概率 $p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 和 $p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 。

这些概率的更新应以接近固定 $p_{en}(\mathbf{z}|\mathbf{x}, \theta)$ 下的真实后验概率 $p(\mathbf{x}|\hat{\mathbf{z}}), p(\mathbf{s}|\hat{\mathbf{z}})$ 为目标。根据上一阶段解码器神经网络的性能，我们接着更新发射端的编码器-调制器神经网络。这两个步骤一起构成一个完整的训练迭代。我们发现，更新发射端的神经网络相对容易，只要我们能够在给定转移概率 $p_{en}(\mathbf{z}|\mathbf{x}, \theta)$ 的情况下找到最佳解码器。因此，我们的主要问题是找到一种方法来训练解码器神经网络，使其参数化的后验分布接近真实的后验分布。因此，我们的努力主要集中在为接收端的神经网络设计合理且高效的损失函数上。

Thus, our efforts mainly focus on designing a reasonable and efficient loss function for the NNs at the receiver.

为了解决这个问题，我们应用了 变分推断（variational inference） 技术。变分推断是一种在机器学习中用于 approximate 复杂贝叶斯模型后验概率分布的方法，因其精确推断在计算上是不可行的 [35]。在 JCM 中，我们将一个近似推断模型拟合到真实后验分布 $p(\mathbf{x}|\hat{\mathbf{z}}), p(\mathbf{s}|\hat{\mathbf{z}})$ ，然后使用变分推断推导出 MI-OBJ 的可处理的下界，该下界包含了真实后验分布与神经网络参数化后验分布 $p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 和 $p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 之间的距离度量。该下界在定理 1 中阐述。

定理 1 (VILB，variational inference lower bound)：MI-OBJ 的变分推断下界由公式 (4) 给出，位于页面底部，其中 $H(\mathbf{S}) + \lambda \cdot H(\mathbf{X})$ 是一个常数。

为了证明定理 1，我们首先将解码器概率 $p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 和 $p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 扩展为对真实后验分布的变分近似，并将它们合并到 MI-OBJ 中。通过这种方式，对于每一个互信息项，我们分别得到一个下界：
$\mathbb{E}_{p(\hat{\mathbf{z}})} \mathbb{E}_{p(\mathbf{s}|\hat{\mathbf{z}})} \log p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi) + H(\mathbf{S}), \tag{5}$ 和 $\mathbb{E}_{p(\hat{\mathbf{z}})} \mathbb{E}_{p(\mathbf{x}|\hat{\mathbf{z}})} \log p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi) + H(\mathbf{X}). \tag{6}$ 然后，我们通过使用马尔可夫链扩展 $p(\hat{\mathbf{z}})$ 来得到 VILB。定理 1 的完整证明可以在附录 A 中找到。
$\begin{aligned}I_{\theta}(\mathbf{S};\mathbf{\hat{Z}})+\lambda\cdot I_{\theta}(\mathbf{X};\mathbf{\hat{Z}})&\geq\mathbb{E}_{p(\mathbf{\hat{z}}|\mathbf{z})}\mathbb{E}_{p_{en}(\mathbf{z}|\mathbf{x},\theta)}\mathbb{E}_{p(\mathbf{s},\mathbf{x})}\{\mathbb{E}_{p(\mathbf{s}|\mathbf{\hat{z}})}\log p_{de,s}(\mathbf{s}|\mathbf{\hat{z}},\phi)+\lambda\cdot\mathbb{E}_{p(\mathbf{x}|\mathbf{\hat{z}})}\log p_{de,o}(\mathbf{x}|\mathbf{\hat{z}},\psi)\}+K\\&\stackrel{\mathrm{def}}{=}\mathcal{L}_{gen}(\theta,\phi,\psi)\end{aligned}$

定理 1 给出了 MI-OBJ 的可操作下界，我们将其定义为通用损失函数 $\mathcal{L}_{gen}(\theta, \phi, \psi)$ 。通过最大化该下界，神经网络（NNs）中的参数 $\theta, \phi$ 和 $\psi$ 可以在优化过程中进行训练。具体来说，在定理 1 中，MI-OBJ 的下界由一个常数和两个项的期望值组成，分别为： $\mathbb{E}_{p(\mathbf{s}|\hat{\mathbf{z}})} \log p_{de,s}(\mathbf{s}|\hat{\mathbf{z}}, \phi)$ 和 $\mathbb{E}_{p(\mathbf{x}|\hat{\mathbf{z}})} \log p_{de,o}(\mathbf{x}|\hat{\mathbf{z}}, \psi)$ 。

这两项作为真实后验分布和神经网络参数化的近似后验分布之间的距离度量。当真实后验分布固定时，这两个项的最大化使得近似后验分布能够不断逼近各自的真实后验分布，即最佳解码器。

当近似后验分布等于真实后验分布时，公式 (4) 中的等式成立，VILB 达到其最大值。因此，通过最大化 VILB，编码器-调制器可以学习如何最大化互信息，解码器也能更好地从接收到的序列中提取信息，从而提高其解码性能。

需要注意的是，VILB 是可处理的。在训练阶段，当我们拥有真实语义信息和真实源数据时，我们可以使用经验分布来替代真实的后验分布。近似后验分布是通过解码器神经网络获得的。因此，可以使用这些概率来计算 VILB。此外，我们可以使用诸如蒙特卡洛采样 [36] 之类的方法来估计期望值。因此，我们使用 VILB 作为可处理的损失函数，用于编码器-调制器和两个解码器的联合优化。

B. Transition Probability Model of the Encoder-Modulator

在JCM中，星座符号序列是从转移概率生成的，而该转移概率由编码器-调制器神经网络（NN）进行参数化。然而，对于一个长度为 $n$ 、使用 $M$ 阶调制的星座符号序列，总共有 $M^n$ 种概率类别需要学习。为了简化学习过程，我们在本小节中引入了一种转移概率模型（a model of the transition probability）。