多载波系统中非凸频谱优化的对偶方法 ellipsoid 椭球法 subgradient 次梯度法

zzz的学习笔记本

已于 2023-11-28 10:26:05 修改

阅读量167

点赞数

分类专栏：凸优化文章标签：凸优化

于 2022-11-12 17:18:56 首次发布

本文链接：https://blog.csdn.net/qq_42806204/article/details/126733305

版权

凸优化专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Wei Yu and R. Lui, “Dual methods for nonconvex spectrum optimization of multicarrier systems,” in IEEE Transactions on Communications, vol. 54, no. 7, pp. 1310-1322, July 2006, doi: 10.1109/TCOMM.2006.877962.

Dual methods for nonconvex spectrum optimization of multicarrier systems

笔记

static spectrum management (SSM)

将固定的发射功率谱密度 (PSD) 应用于每条线路，而不管环路拓扑或用户服务要求如何。

Iterative waterfilling (IWF)

[7] Wei Yu, G. Ginis and J. M. Cioffi, “Distributed multiuser power control for digital subscriber lines,” in IEEE Journal on Selected Areas in Communications, vol. 20, no. 5, pp. 1105-1115, June 2002, doi: 10.1109/JSAC.2002.1007390.

对于非凸多用户频谱优化问题，侧重于近似问题的全局解决方案的启发式方法 [6]-[11] 。
每个用户通过执行单用户注水，将来自所有其他用户的串扰干扰视为噪声，从而迭代地最大化自己的可实现速率。
优点：IWF 算法已被证明优于 SSM 方案。
缺点：解决方案的全局最优性难以证明。

optimal spectrum balancing (OSB)

[12] R. Cendrillon, Wei Yu, M. Moonen, J. Verlinden and T. Bostoen, “Optimal multiuser spectrum balancing for digital subscriber lines,” in IEEE Transactions on Communications, vol. 54, no. 5, pp. 922-933, May 2006, doi: 10.1109/TCOMM.2006.873096.

在 [12] 中提出了一种针对 DSL 多用户频谱优化问题的最优频谱平衡 (OSB) 方法，其中提供了针对非凸问题的比特加载算法的全局最优性的第一个证明。
基本策略是通过形成其拉格朗日对偶将频谱优化问题（2）转化为对偶域
优点：与 IWF 相比，OSB 算法可以提供显着的性能改进。
缺点：OSB 算法的计算复杂度，虽然在载波数 N 上是线性的，但在用户数 K 上仍然是指数级的。

Iterative Spectrum Balancing

Wei Yu and R. Lui, “Dual methods for nonconvex spectrum optimization of multicarrier systems,” in IEEE Transactions on Communications, vol. 54, no. 7, pp. 1310-1322, July 2006, doi: 10.1109/TCOMM.2006.877962.

2个重要结论
the duality gap for a nonconvex optimization problem is zero if the optimization problem satisfies a time-sharing condition.
Further, the time-sharing condition is always satisfied for the multiuser spectrum optimization problem in multicarrier systems when the number of frequency carriers goes to infinity.
如果优化问题满足分时条件，则非凸优化问题的对偶间隙为零。
此外，多载波系统中的多用户频谱优化问题在频率载波数趋于无穷大时，总是满足分时条件。

本文提出的一般理论还对 OSB 算法进行了一些算法改进。

首先，通过将 OSB 算法重新解释为对偶算法，我们表明使用次梯度和椭球算法可以有效地完成对偶更新。这显着加快了实施的收敛速度。
其次，我们提出了一种低复杂度的方法来近似拉格朗日对偶目标的评估，该方法允许以较小的性能成本进一步降低计算复杂度。
优点：与以前的 OSB 方法相比，这种新的 ISB 算法在许多实际情况下提供了显着的复杂性降低和少量的最优性损失。

Optimal Resource Allocation for OFDMA Downlink Systems

K. Seong, M. Mohseni and J. M. Cioffi, “Optimal Resource Allocation for OFDMA Downlink Systems,” 2006 IEEE International Symposium on Information Theory, 2006, pp. 1394-1398, doi: 10.1109/ISIT.2006.262075.

[6] Dual Methods for Non-Convex Spectrum Optimization of Multi-carrier Systems
[6] 表明，在多载波应用中，即使原始资源分配问题是非凸的，随着音调数量趋于无穷大，对偶间隙也会变为零。

本文基于这一结果，利用拉格朗日对偶分解在对偶域中解决了OFDMA下行链路资源分配问题，并针对加权和速率最大化（WSRmax）和加权和功率最小化（WSPmin）问题开发了有效的算法。

摘要

多载波通信系统的设计和优化通常涉及受系统资源限制的总吞吐量的最大化。
当问题没有凸结构时，优化问题在数值上很难解决。
本文通过表明在称为分时条件的特定条件下，无论目标函数的凸性如何，优化问题的对偶间隙始终为零，从而在解决此类优化问题方面取得了进展。
此外，我们证明了当载波数量趋于无穷时，多载波系统中的实际多用户频谱优化问题满足分时条件。
这一结果导致了解决双域中非凸问题的有效数值算法。
我们表明，最近提出的用于数字用户线路的最佳频谱平衡算法可以解释为对偶算法。
这种新的解释产生了更有效的对偶更新方法。
它还提出了可以近似评估对偶目标的方法，进一步提高了算法的数值效率。
我们基于这些思想提出了一种低复杂度的迭代频谱平衡算法，并表明新算法在许多实际情况下都达到了接近最优的性能。

Introduction

通信系统的设计通常涉及受各种资源限制的设计目标的优化。
当目标函数或约束缺乏凸结构时，优化问题在数值上变得难以解决。
本文针对多载波通信系统中经常出现的一类特定优化问题，处理非凸优化问题的有效数值解。
在多载波系统中，传输频谱被划分为大量频率槽，在这些频率槽上进行并行数据传输。
多载波系统的最常见示例包括无线正交频分复用 (OFDM) 系统，例如 802.11 和数字音频广播系统，以及有线离散多音 (DMT) 系统，例如数字用户线路 (DSL) 系统。
在 DMT 和 OFDM 系统中，一对离散傅里叶变换 (DFT) 和逆离散傅里叶变换 (IDFT) 用于将频带划分为独立的子信道。
自适应频谱整形和比特分配可以很容易地在逐个载波的基础上实现。

自适应多载波系统设计中的一个核心问题是跨频域的最佳频谱和比特分配问题。
对于单用户系统，这个问题很容易理解，其中最优解决方案类似于信息理论上最优的“注水”解决方案。
但是，当多个用户同时存在时，这个问题就很重要了。
在后一种情况下，设计目标函数和约束通常是非凸的，优化问题在计算上变得难以解决。

本文通过研究多载波系统的基本性质，在数值求解多载波系统非凸优化问题方面取得了进展。
特别是，我们关注这些非凸问题的拉格朗日对偶的表征。
我们的主要结果是，只要满足所谓的分时条件，多载波系统中的非凸优化问题就具有零对偶间隙。
此外，对于多载波系统中的实际多用户频谱优化问题，当频率载波的数量趋于无穷大时，分时条件总是满足的。
乍一看，这个结果令人惊讶，因为非凸优化问题通常具有非零对偶间隙。
然而，该结果非常有用，因为它开辟了在对偶域中严格求解非凸问题的全局最优解的可能性。

一般凸优化问题的拉格朗日对偶理论是众所周知的[1]，[2]。
对于非凸多用户频谱优化问题，文献中的现有方法通常侧重于问题 [3]-[5] 的凸松弛或近似问题的全局解决方案的启发式方法 [6]-[11] 。在这两种情况下，解决方案的全局最优性都难以证明。

[4] Wei Yu and J. M. Cioffi, “FDMA capacity of Gaussian multiple-access channels with ISI,” in IEEE Transactions on Communications, vol. 50, no. 1, pp. 102-111, Jan. 2002, doi: 10.1109/26.975766.
[7] Wei Yu, G. Ginis and J. M. Cioffi, “Distributed multiuser power control for digital subscriber lines,” in IEEE Journal on Selected Areas in Communications, vol. 20, no. 5, pp. 1105-1115, June 2002, doi: 10.1109/JSAC.2002.1007390.

最近，在 [12] 中提出了一种针对 DSL 多用户频谱优化问题的最优频谱平衡 (OSB) 方法，其中提供了针对非凸问题的比特加载算法的全局最优性的第一个证明。
本文概括了[12]的结果，并在对偶优化框架中重新解释了 OSB 算法。
我们的主要贡献是对多载波系统的非凸优化问题的理论处理，以及零对偶间隙的精确条件。
我们的一般理论受到 Aubin 和 Ekeland [13] 以及 Bertsekas 等人早期工作的启发。
[14]，[15]，其中整数规划问题在类似的上下文中被考虑。

[12] R. Cendrillon, Wei Yu, M. Moonen, J. Verlinden and T. Bostoen, “Optimal multiuser spectrum balancing for digital subscriber lines,” in IEEE Transactions on Communications, vol. 54, no. 5, pp. 922-933, May 2006, doi: 10.1109/TCOMM.2006.873096.

本文提出的一般理论还对 OSB 算法进行了一些算法改进。
首先，通过将 OSB 算法重新解释为对偶算法，我们表明使用次梯度和椭球算法可以有效地完成对偶更新。这显着加快了实施的收敛速度。
其次，我们提出了一种低复杂度的方法来近似拉格朗日对偶目标的评估，该方法允许以较小的性能成本进一步降低计算复杂度。
两者都是使算法实用的重要步骤。
本文旨在为多用户频谱优化问题提供优化理论观点。
这个问题的理论方法在过去被证明是卓有成效的。例如，在最近的一项工作 [16] 中，使用频谱优化问题的非线性互补方法为 DSL 问题提供了非常有趣的见解。

本文的其余部分安排如下。
系统模型和问题表述。
提出了多载波系统非凸优化问题的一般理论，并证明了主要的对偶间隙结果。
提供了更新 OSB 对偶变量的有效方法。
提出了一种新的低复杂度算法用于对偶目标的评估，进一步降低了算法的计算复杂度。
仿真结果。
结束语

Spectrum Optimization Problems

本文的主要动机是最近对数字用户线路的动态频谱管理 (DSM) 的兴趣激增。
在 DSL 系统中，多根铜质双绞线捆绑在一起。
铜线对之间的电磁耦合会导致串扰干扰，长期以来，这一直被认为是 DSL 部署中线路损伤的主要来源。
当前的 DSL 系统使用静态频谱管理 (SSM) 方法，其中将固定的发射功率谱密度 (PSD) 应用于每条线路，而不管环路拓扑或用户服务要求如何。
SSM 下的性能预测基于最坏情况串扰干扰的水平。

未来几代 DSL 服务被设想实现 DSM [17]、[18]，其中，每条线路都被赋予了在整个频谱范围内单独适应其环路环境和服务要求的能力。
DSL标准化机构采用多载波调制促进了DSM。
单独设置每个频率载波的 PSD 电平的能力使 DSM 技术有可能大大提高当前 DSL 系统的可实现速率和服务范围。
另一方面，大量的设计变量也从优化的角度提出了研究挑战。
DSM 是一个活跃的研究领域，无论是在研究界还是在标准化机构内 [19]。

在 SSM 方案下，假设线路干扰是固定的（或假设具有最坏情况下的 PSD 电平），频谱优化问题简化为以下问题。
设计目标是最大化整体系统吞吐量，这是每个频率载波中各个速率的总和。
设计约束是跨所有载波耦合的功率约束。
让 Sn 表示在第 n 个载波上的发送 PSD。
优化问题是
${\rm maximize} \displaystyle\sum_{n=1}^{N}\log\left(1+{S^{n} \over \sigma^{n}}\right) {(1)}\\ {\rm subject\ to} \displaystyle\sum_{n=1}^{N}S^{n}\leq P \\ S^{n}\geq 0$
上述问题有一个众所周知的注水解决方案。
在这种情况下很容易找到有效的解决方案，因为目标函数在优化变量 Sn 中是凹的。

多用户

当需要同时优化多个用户的 PSD 时，频谱优化问题变得更具挑战性。
这种联合优化的需要在图 1 中描述的情况中得到了最清楚的说明，其中通道传递函数严重不平衡。
如图所示，当远程部署光网络单元 (ONU) 时，它可能会对从中心局提供服务的相邻客户端调制解调器发出过多的干扰。
DSM 支持中心局调制解调器和 ONU 调制解调器对传输 PSD 的联合优化，允许两者同时运行。

在数学上，多用户频谱优化问题可以表述如下：(2)
${\rm maximize}\mathop{\sum}_{k=1}^{K}\omega_{k}\mathop{\sum}_{n=1}^{N}\log \left(1+ {S_{k}^{n} \over \sigma_{k}^{n}+\sum_{j\neq k}\alpha_{jk}^{n}S_{j}^{n}}\right) {(2)}\\ {\rm subject \ to}\mathop{\sum}_{n=1}^{N}S_{k}^{n}\leq P_{k}\quad \forall k \\ S_{k}^{n}\geq 0 \quad \forall k, n$
K is the number of users
N is the number of frequency carriers
the effective noise PSD for the kth user at the nth carrier σnk is again normalized by Γ/|Hnkk|2
the effective interference coefficient αnjk = Γ|Hnjk|2/|Hnkk|2
Hnjk is the channel transfer function from the jth transmitter to the kth receiver in carrier n
ωk is the relative weight given to the kth user in the optimization problem
变量
S_{k}^{n} the power allocation for user k in the nth carrier
约束
Pk is the total power constraint for the user k

在整篇论文中，相邻载波之间的旁瓣效应被忽略了。
这对于实现类似拉链的调制的帧同步 DSL 系统[20]，或者包含足够数量的传输窗口来说是现实的。
通过改变 ωk 解决上述优化问题，可以生成整个可实现的速率区域。
因为目标函数在 S_{k}^{n} 中不是凹的，所以数值优化很困难。
显然，穷举搜索是不可行的，因为复杂性将是变量总数的指数，即 KN，其中 N 可以高达 4096。

迭代注水 (IWF)

迭代注水 (IWF) [7] 是早期的多用户频谱优化技术之一，它利用 DSL 调制解调器执行频谱整形的能力。
在该算法中，每个用户通过执行单用户注水，将来自所有其他用户的串扰干扰视为噪声，从而迭代地最大化自己的可实现速率。
然而，IWF 过程并不寻求为整个 DSL 捆绑找到全局最优值。
相反，每个用户都参与了一个非合作博弈，IWF过程的收敛点对应一个竞争均衡。
尽管不是最佳的，但 IWF 算法已被证明优于 SSM 方案。

[7] Wei Yu, G. Ginis and J. M. Cioffi, “Distributed multiuser power control for digital subscriber lines,” in IEEE Journal on Selected Areas in Communications, vol. 20, no. 5, pp. 1105-1115, June 2002, doi: 10.1109/JSAC.2002.1007390.

Distributed multiuser power control for digital subscriber lines

OSB 算法

最近，在 [12] 中提出了一种精确的 OSB 算法来全局和最优地解决这个问题。
基本策略是通过形成其拉格朗日对偶将频谱优化问题(2)转化为对偶域(3)

[12] R. Cendrillon, Wei Yu, M. Moonen, J. Verlinden and T. Bostoen, “Optimal multiuser spectrum balancing for digital subscriber lines,” in IEEE Transactions on Communications, vol. 54, no. 5, pp. 922-933, May 2006, doi: 10.1109/TCOMM.2006.873096.
Optimal multiuser spectrum balancing for digital subscriber lines

${\rm maximize}\ \displaystyle\sum_{k=1}^{K}\omega_{k}\sum_{n=1}^{N}\log\left(1+{S_{k}^{n} \over \sigma^{n}+\sum_{j\neq k}\alpha_{jk}^{n}S_{j}^{n}}\right)+\displaystyle\sum_{k=1}^{K}\lambda_{k}\left(P_{k}-\sum_{n=1}^{N}S_{k}^{n}\right) (3)\\ {\rm subject \ to}\ S_{k}^{n}\geq 0\quad \forall k.$
这个想法是为每组非负和固定的 (λ1,…,λK) 求解拉格朗日。
然后可以通过在 λ 空间中的嵌套二分搜索找到原始问题的解决方案。
可以看出，OSB 算法的计算复杂度与频率载波数 N 成线性关系。
如 [12] 所示，与 IWF 相比，OSB 算法可以提供显着的性能改进。

然而，OSB 算法的计算复杂度，虽然在 N 上是线性的，但在用户数 K 上仍然是指数级的。
之所以如此，有两个原因。

首先，对于 K 个用户，需要 K 个嵌套的二等分循环，每个 λk 一个。因此，λ 搜索是指数级复杂的。
其次，对于一组固定的 (λ1,…,λK)，拉格朗日函数的最大化涉及在每个音调 n 中对 (Sn1,…,SnK) 进行穷举搜索，其计算复杂度也是 K 的指数。
当用户数量很大时，OSB 的复杂性变得令人望而却步。

迭代频谱平衡 (ISB)

本文的目的是改进 OSB 算法，以消除其指数复杂度。
为此，我们建立了多载波系统对偶优化的一般理论，并表明与一般非凸问题相反，多用户频谱优化的对偶间隙总是随着频率载波的数量趋于无穷大而趋于零，无论优化问题是否是凸的。
这一关键观察导致了直接优化对偶目标函数的有效 λ 搜索方法。

其次，为了克服对 (Sn1,…,SnK) 的穷举搜索的指数复杂性，我们提出了迭代和低复杂度的方法来近似评估对偶目标。
生成的算法是 IWF 和 OSB 之间的中间地带。
我们通过仿真表明，这种迭代频谱平衡 (ISB) 技术在许多具有实际重要性的情况下实现了 OSB 的大部分增益，同时具有低得多的计算复杂度。

本文提出的计算方法具有比 DSL 应用更广泛的含义。
DSL 频谱平衡问题与无线应用中 OFDM 系统的最佳功率分配和比特加载问题 [3]、[5]、[21]、[22]非常相似。
DSL 问题的低复杂度解决方案也可能适用于无线系统。

Duality Gap of Nonconvex Optimization

在本节中，我们提出了多载波系统中非凸优化问题的一般对偶理论。
在多载波系统中，优化目标和约束通常由大量单独的函数组成，每个函数对应于 N 个频率载波之一。
因此，优化问题具有以下一般形式：(4)
${\rm maximize}\quad \sum_{n=1}^{N}f_{n}({\bf x}_{n}){(4)}\\ {\rm subject \ to}\quad \sum_{n=1}^{N}{\bf h}_{n}({\bf x}_{n})\leq P$

目标函数f不一定凹
约束h不一定凸

对偶优化的思想是通过形成其拉格朗日对偶来解决（4）
$L({\bf x}_{n}, \lambda)=\displaystyle\sum_{n=1}^{N}f_{n}({\bf x}_{n})+\lambda^{T}\left({\bf P}-\displaystyle\sum_{n=1}^{N}{\rm h}_{n}({\rm x}_{n})\right){{(5)}}$
其中 λ 是拉格朗日对偶变量的向量。
将对偶目标 g(λ) 定义为拉格朗日的无约束最大化
$g(\lambda)=\max_{{\rm x}_{n}}L({\rm x}_{n}, \lambda).{{(6)}}$
对偶优化问题是(7)
${\rm minimize}\quad g(\lambda)\\ {\rm subject\ to} \quad \lambda\geq 0.{(7)}$

当 fn(xn) 是凹的并且 hn(xn) 是凸的时，标准凸优化结果保证原始问题 (4) 和对偶问题 (7) 具有相同的解。
当凸性不成立时，对偶问题提供了一个解，它是 (4) 解的上限。
上限并不总是严格的，上限与真正最优值之间的差异称为“对偶间隙”。

本节的主要目标是描述即使优化问题不是凸的，对偶间隙也为零的条件。
为此，我们定义了以下分时条件。

分时条件有以下直观解释。
将优化问题 (4) 的最大值视为约束 P 的函数。
显然，较大的 P 意味着更宽松的约束。
所以，粗略地说，最大值是 P 的增函数。
分时条件意味着优化问题的最大值是 P 的一个凹函数。

请注意，如果 fn 是凹的而 hn 是凸的，则始终满足分时条件。
这可以通过设置 zn=νx∗n+(1−ν)y∗n 轻松验证，
在这种情况下，fn 的凹性意味着 ∑fn(zn)≥ν∑fn(x∗n)+(1−ν)∑fn(y∗n)，
hn 的凸性意味着 ∑nhn(zn)≤νhn(x∗n)+(1−ν)hn(y∗n)≤νPx+(1−ν)Py。
然而，反过来不一定是正确的。
如本文后面所示，对于许多实际感兴趣的多载波系统，即使 fn 不是凹的和 hn 的不是凸的，分时条件仍然成立。
本节的主要结果是分时属性意味着零对偶间隙。
此外，对于多载波上下文中的许多实际优化问题，均满足分时条件。

Theorem 1
考虑形式 (4) 的优化问题。如果优化问题满足分时特性，那么它的对偶间隙为零，即原始问题（4）和对偶问题（7）具有相同的最优值。

Theorem 2
考虑一个优化问题 (9)，其中 σk(f) 和 αjk(f) 都是 f 的连续函数。
那么，分时条件总是满足的。
此外，它的离散化版本（2）也满足N→∞的极限分时条件。
${\rm maximize}\sum_{k=1}^{K}\omega_{k} \int\log\left(1+{S_{k}(f) \over \sigma_{k}(f)+\sum_{j\neq k}\alpha_{jk}(f)S_{j}(f)}\right) \ df\\ {\rm subject\ to}\ \int S_{k}(f)\leq P_{k}\quad \forall k \\ S_{k}(f)\geq 0\ \quad \forall k, f$ (9)

为了证明分时属性适用于所有具有连续信道增益和噪声谱的优化问题，需要一个限制参数。
这个想法是将总频率划分为一组无穷小的频带。
通过连续性，随着细分变得越来越精细，每个频带内的信道增益和噪声频谱接近一个恒定值。
然后，前面证明的恒定信道结果适用于每个无穷小频带。
因此，分时属性适用于整个优化问题。

最后，上述论证还表明，在优化问题 (4) 的离散化版本中，当 N→∞ 时，分时属性在极限内成立。
为便于表述，定理 2 已针对连续位加载问题进行了陈述和证明。
然而，即使施加了额外的整数位约束，该定理仍然成立。
证明的步骤完全一样。
首先，当 σk(f) 和 αjk(f) 为常数时，可以证明该定理成立。
对于整数位加载，显然只有有限数量的频带，其中最佳 S∗1(f) 和 S∗2(f) 是常数。
然后，两者的 FDM 给出了理想的分时点。

请注意，对于具有较大但有限 N 的实际系统，尽管对偶间隙并非严格为零，但几乎为零。
这是因为多载波系统中的载波宽度总是被选择为使得相邻子信道中的信道响应大致相同。
在这种情况下，fn,…,fn+m 足够相似（对于 hn,…,hn+m 也是如此），因此可以通过 FDM 实现分时。

定理 1 和 2 的主要结论是只要 N 足够大，即使是非凸谱优化问题也可以通过求解其对偶来解决。
对于形式 (4) 的优化问题，解决对偶问题会容易得多。
之所以如此，是因为以下两个观察结果。

首先，对偶目标函数 g(λ) 解耦为 N 个独立问题
$g(\lambda)=\sum_{n=1}^{N}\left\{\max_{{\rm x}_{n}}\{f_{n}({\rm x}_{n})-\lambda^{T}{\bf h}_{n}({\bf x}_{n})\}\right\}+\lambda^{T}{\bf P}.{{(10)}}$
因此，g(λ) 的评估具有在 N 中线性的复杂度。
请注意，每载波优化问题没有凸结构。
因此，在全局范围内解决每载波问题可能仍需要详尽的搜索。
但是，由于优化问题不受约束，因此更易于管理。
其次，即使 fn(xn) 不是凹的并且 hn(xn) 不是凸的，函数 g(λ) 也是凸的。
（这是因为对于每个固定的 xn，L(xn,λ) 在 λ 中是线性的，而 g(λ) 是线性函数的最大值，因此是凸函数。）
优化 g(λ) 的复杂度取决于 λ 的维度，即原始问题中约束的数量。
对于频谱优化问题，约束数为 K，与 N 无关。

将这两个事实放在一起，整个对偶优化过程的复杂度为 O(N)。
由于 N 在多载波频谱优化问题中可能很大，因此 N 从指数复杂度降低到线性复杂度是显着的。

我们在这里注意到定理 1 和 2 保证原始优化问题的最优值恰好是 g(λ) 在 λ≥0 上的最小值。
然而，在某些情况下，在从最优对偶解 λ∗ 恢复原始优化问题 x∗n 的最优原始解时必须格外小心。
特别是，在某些情况下，解决最大化问题 (10) 的最优 x∗n 不是唯一的。
在这种情况下，必须选择一组满足原始问题约束的 x∗n。
当分时条件满足时，这样一组可行的 x∗n 总是存在的。
对于频谱优化问题，这对应于存在许多等效 FDM 解决方案的情况。

如前所述，我们对非凸优化问题的对偶间隙的处理受到 Aubin 和 Ekeland [13] 以及 Bertsekas 等人的启发。
[14]，[15]，他们得出了非凸整数规划问题的对偶间隙的估计。
虽然证明的主要思想相似，但[13]-[15]的问题设置有所不同，早期的结果并不直接适用于该设置。

Dual Update Methods

[12] 中开发的 OSB 算法是最早用于非凸频谱优化问题的对偶优化算法之一。
在 [12] 中，OSB 的实现是基于对 λ 的每个分量的二等分搜索。
在[12]中证明了多载波系统中的最优功率分配是λ的连续单调函数。
因此，二分搜索保证收敛到最优。

然而，由于多用户频谱优化问题 (2) 包含 K 个约束，因此对 λ 的每个分量的连续二等分具有在 K 中呈指数增长的复杂性。
如上一节所述，为非凸问题开发一般对偶理论的主要动机之一是，这样的一般结果允许直接优化 g(λ)。
这产生了在 K 中具有多项式复杂度的高效对偶更新方法。

主要思想是通过沿某个搜索方向同时更新 λ 的所有分量（而不是一次连续更新一个分量）来直接最小化 g(λ)。
因为 g(λ) 是凸的，所以梯度型搜索可以保证收敛到全局最优值。
然而，主要困难在于 g(λ) 虽然是凸的，但不一定是可微的。
因此，它并不总是有梯度。
然而，可以根据所谓的次梯度找到搜索方向。
向量 d 是 g(λ) 在 λ 处的次梯度，如果对于所有 λ’
A vector $d$ is a subgradient of $g (λ)$ at $λ$ , if for all $λ'$
$g(\lambda^{\prime})\geq g(\lambda)+{\bf d}^{T}(\lambda^{\prime}-\lambda).{{(11)}}$
次梯度是（可能）不可微函数的梯度泛化。
直观地说，如果斜率 d 通过 (λ,g(λ)) 的线性函数完全低于 g(λ)，则 d 是次梯度。
幸运的是，对于 (6) 中定义的 g(λ)，很容易找到次梯度。

${\rm maximize}\mathop{\sum}_{k=1}^{K}\omega_{k}\mathop{\sum}_{n=1}^{N}\log \left(1+ {S_{k}^{n} \over \sigma_{k}^{n}+\sum_{j\neq k}\alpha_{jk}^{n}S_{j}^{n}}\right) {(2)}\\ {\rm subject \ to}\mathop{\sum}_{n=1}^{N}S_{k}^{n}\leq P_{k}\quad \forall k \\ S_{k}^{n}\geq 0 \quad \forall k, n$

${\rm maximize}\quad \sum_{n=1}^{N}f_{n}({\bf x}_{n}){(4)}\\ {\rm subject \ to}\quad \sum_{n=1}^{N}{\bf h}_{n}({\bf x}_{n})\leq P$
$L({\bf x}_{n}, \lambda)=\displaystyle\sum_{n=1}^{N}f_{n}({\bf x}_{n})+ \lambda^{T}\left({\bf P} -\displaystyle\sum_{n=1}^{N}{\rm h}_{n}({\rm x}_{n})\right){{(5)}}$
$g(\lambda)=\max_{{\rm x}_{n}}L({\rm x}_{n}, \lambda).{{(6)}}$
$g(\lambda) = {\rm max}_{{\bf x}_{n}}\{\sum_{n}f_{n}({\bf x_{n}})+ \lambda^{T}({\bf P}-\sum_{n=1}^{N}{\bf h}_{n}({\bf x}_{n}))\}$
$g(\lambda)=\sum_{n=1}^{N}\left\{\max_{{\rm x}_{n}}\{f_{n}({\rm x}_{n})-\lambda^{T}{\bf h}_{n}({\bf x}_{n})\}\right\}+\lambda^{T}{\bf P}.{{(10)}}$
${\rm minimize}\quad g(\lambda)\\ {\rm subject\ to} \quad \lambda\geq 0.{(7)}$

Proposition 1
For the optimization problem (2) with a dual objective $g (λ)$ defined in (6),
the following choice of $d$ is a subgradient for $g (λ)$ :
$\displaystyle {\bf d}={\bf P}-\sum_{n=1}^{N}{\bf h}_{n}({\bf x}_{n}^{\ast}) {{(12)}}$

Proof
Let $x * n$ be the optimizing variable in the definition of $g (λ)$ .
$g(\lambda^{\prime})=\max_{{\rm x}_{n}}\left\{\sum_{n}f_{n}({\bf x}_{n})+\lambda^{\prime T}\left({\bf P}-\sum_{n=1}^{N}{\bf h}_{n}({\bf x}_{n})\right)\right\}\\ \geq\displaystyle\sum_{n}f_{n}({\bf x}_{n}^{\ast})+\lambda^{\prime T}\left({\bf P}-\sum_{n=1}^{N}{\rm h}_{n}({\rm x}_{n}^{\ast})\right)\\ =g(\lambda)+\left({\bf P}-\sum_{n=1}^{N}{\bf h}_{n}({\rm x}_{n}^{\ast})\right)^{T}(\lambda^{\prime}-\lambda)$
thus verifying the definition of subgradient (11).
$g(\lambda^{\prime})\geq g(\lambda)+{\bf d}^{T}(\lambda^{\prime}-\lambda).{{(11)}}$

The subgradient search direction suggests that the $k$ th component of $λ$ should increase if the corresponding constraint is exceeded, i.e.,
the $k$ th component of $\sum N n = 1 hn (x * n)$ exceeds $P k$ , and decrease otherwise.
This is intuitive, as $λ$ represents a price for power.
Price should increase if the power constraint is exceeded.
Price should decrease, otherwise.
In fact, $λ$ updates can be done systematically.
In the following, we propose two $λ$ update methods based on the well-known subgradient and ellipsoid methods.
These methods, for example, were used recently in [23] for a joint routing and resource allocation problem.

A. Subgradient Method

The idea of the subgradient update method is to design a stepsize sequence $s^{l}$ to update $λ$ in the subgradient direction.
More specifically, the update may be performed as follows:
$\lambda^{l+1}=\left[\lambda^{l}-s^{l}\left({\bf P}-\sum_{n}{\bf h}_{n}({\rm x}_{n})\right)\right]^{+}{{(13)}}$
$l$ is the iteration number
$s^{l}$ is a sequence of scalar step sizes
$[\cdot] +$ is defined as $[\cdot] + = ma x (\cdot, 0)$

The above subgradient update is guaranteed to converge to the optimal $λ$ as long as $s^{l}$ is chosen to be sufficiently small [24].

choosing the step sizes

A common criterion for choosing the step sizes is that $s^{l}$ must be square summable, but not absolute summable [25], [26].
EE392o: Optimization Projects
When the norm of the subgradient is bounded, the following choice:
$s^{l}={\beta \over l}{{(14)}}$
$s^{l}={\beta \over l}$
$s^{l}=\beta$
$s^{l}=(\beta)/(\sqrt{l})$
for some constant $\beta$ is guaranteed to converge to the optimal $g (λ)$ .

B. Ellipsoid Method

EE392o: Optimization Projects
EE364b: Lecture Slides and Notes
EE364b ellipsoid_method_notes
↑这个重要

Linear Programming and Approximation Algorithms
The ellipsoid method

Wai-Shing Luk
陆伟成自学算法：椭球法解决凸优化问题
 陆伟成 Convex Programming

Online Learning by Ellipsoid Method

So, all $λ'$ 's that are in the half-plane defined by (15) can be eliminated in each step.
${\bf d}^{T}(\lambda^{\prime}-\lambda)\geq 0{{(15)}}$
The cutting-plane method is a generalization of the one-dimensional (1-D) bisection method to higher dimensions.

A common choice of the candidate region is the minimalsized ellipsoid containing all candidate $λ$ ’s.
An ellipsoid with a center $z$ and a shape defined by positive semidefinite matrix $A$ is defined to be
$E({\bf A}, {\bf z}){\mathop{=}^{\triangle}}\{{\bf x}\vert ({\bf x}-{\bf z})^{T}{\bf A}({\bf x}-{\bf z})\leq 1\}.{{(16)}}$

$g(\lambda) = {\rm max}_{{\bf x}_{n}}\{\sum_{n}f_{n}({\bf x_{n}})+ \lambda^{T}({\bf P}-\sum_{n=1}^{N}{\bf h}_{n}({\bf x}_{n}))\}$ (10)
$g(\lambda)=\sum_{n=1}^{N}\left\{\max_{{\rm x}_{n}}\{f_{n}({\rm x}_{n})-\lambda^{T}{\bf h}_{n}({\bf x}_{n})\}\right\}+\lambda^{T}{\bf P}.{{(10)}}$

Let $d i$ , be the subgradient of $g (λ)$ at the center of the ellipsoid $z i$ . 这怎么算？？
In each iteration, half of the ellipsoid is eliminated based on $d i$ .
A new ellipsoid, which is the minimal-volume ellipsoid containing the other half, is formed.
Mathematically, the update algorithm is as follows [26]:
$\begin{array}{l} 1)\;{\widetilde {\bf{d}}_{\bf{i}}} = \frac{{{{\bf{d}}_{\bf{i}}}}}{{\sqrt {{\bf{d}}_{\bf{i}}^T{\bf{A}}_{\bf{i}}^{ - 1}{{\bf{d}}_{\bf{i}}}} }}(17)\\ 2)\;{{\bf{z}}_{{\bf{i}} + 1}} = {{\bf{z}}_{\bf{i}}} - \frac{1}{{K + 1}}{\bf{A}}_{\bf{i}}^{ - 1}{\widetilde {\bf{d}}_{\bf{i}}}(18)\\ 3)\;{{\bf{A}}_{{\bf{i}} + {\bf{1}}}}^{ - 1} = \frac{{{K^2}}}{{{K^2} - 1}}\; \times \left( {{\bf{A}}_{\bf{i}}^{ - 1} - \frac{2}{{K + 1}}{\bf{A}}_{\bf{i}}^{ - 1}{{\widetilde {\bf{d}}}_{\bf{i}}}\widetilde {\bf{d}}_{\bf{i}}^T{\bf{A}}_{\bf{i}}^{ - 1}} \right)(19) \end{array}$
where $K$ is the dimension of $λ$ , i.e., the number of users in the problem.
Graphical illustration of ellipsoid update.
Fig. 4 illustrates the update process.

choose an initial ellipsoid

To choose an initial ellipsoid, we need to bound all candidate $λ$ ’s in a closed and bounded set.
The following result gives a suitable choice of the initial set.

the single-user spectrum optimization problem
${\rm maximize} \displaystyle\sum_{n=1}^{N}\log\left(1+{S^{n} \over \sigma^{n}}\right) {(1)}\\ {\rm subject\ to} \displaystyle\sum_{n=1}^{N}S^{n}\leq P \\ S^{n}\geq 0$
the $K$ -user spectrum optimization problem
${\rm maximize}\mathop{\sum}_{k=1}^{K}\omega_{k}\mathop{\sum}_{n=1}^{N}\log \left(1+ {S_{k}^{n} \over \sigma_{k}^{n}+\sum_{j\neq k}\alpha_{jk}^{n}S_{j}^{n}}\right) {(2)}\\ {\rm subject \ to}\mathop{\sum}_{n=1}^{N}S_{k}^{n}\leq P_{k}\quad \forall k \\ S_{k}^{n}\geq 0 \quad \forall k, n$
K is the number of users
N is the number of frequency carriers

Proposition 2
For the $K$ -user spectrum optimization problem (2),
the optimal set of dual variables $λ *$ must satisfy
$0\leq\lambda_{k}^{\ast}/\omega_{k}\leq\lambda_{k}^{{\rm single}}\quad \forall k{{(20)}}$
where $ωk$ is the relative weight for the user $k$ , and
$\lambda_{k}^{{\rm single}}$ is the optimal dual variable in the single-user spectrum optimization problem (1) with $\sigma^{n}=\sigma_{k}^{n}$ and $P=P_{k}$ .

the Lagrangian of (2)
$L=\sum\limits_{k = 1}^K {{\omega _k}\sum\limits_{n = 1}^N {\log \left( {1 + \frac{{S_k^n}}{{\sigma _k^n + \sum\limits_{j \ne k} {\alpha _{jk}^n} S_j^n}}} \right)} } - \sum\limits_{k = 1}^K {{\lambda _k}\left( {\sum\limits_{n = 1}^N {S_k^n} - {P_k}} \right)}$
log2(1+ax)对x求导=1/(In2)*a/(1+ax)
$\frac{{\partial L}}{{\partial S_k^n}} = {\omega _k}\frac{1}{{\ln (2)}}\frac{1}{{1 + \frac{{S_k^n}}{{\sigma _k^n + \sum\limits_{j \ne k} {\alpha _{jk}^n} S_j^n}}}}\frac{1}{{\sigma _k^n + \sum\limits_{j \ne k} {\alpha _{jk}^n} S_j^n}} - {\lambda _k} = {\omega _k}\frac{1}{{\ln (2)}}\frac{1}{{\sigma _k^n + \sum\limits_{j \ne k} {\alpha _{jk}^n} S_j^n + S_k^n}} - {\lambda _k}$
the Lagrangian of (1)
$\sum\limits_{n = 1}^N {\log } \left( {1 + \frac{{{S^n}}}{{{\sigma ^n}}}} \right) - \lambda \left( {\sum\limits_{n = 1}^N {{S^n}} - P} \right)$
$\frac{{\partial L}}{{\partial {S^n}}} = \frac{1}{{\ln (2)}}\frac{1}{{1 + \frac{{{S^n}}}{{{\sigma ^n}}}}}\frac{1}{{{\sigma ^n}}} - \lambda = \frac{1}{{\ln (2)}}\frac{1}{{{\sigma ^n} + {S^n}}} - \lambda$

Proof
To be the optimal $\lambda_{k}^{\ast}$ for the problem (2), $\lambda_{k}^{\ast}$ must satisfy a set of KKT conditions.
Differentiating the Lagrangian of (2) with respect to $S_{k}^{n}$ , we obtain
$\omega_{k}\cdot{1\over \ln(2)}\cdot{1 \over \sigma_{k}^{n}+S_{k}^{n}+\sum_{j\neq k}\alpha_{jk}^{n}S_{j}^{n}}+ {\rm negative\ terms} =\lambda_{k}^{\ast}.{{(21)}}$ ？？？？
Intuitively, only user $k$ ’s rate is an increasing function of $S_{k}^{n}$ , so only one term in the derivative is positive.
Now, in the singleuser problem, $\lambda_{k}^{{\rm single}}$ may be computed directly as
$\over \ln(2)}\cdot{1 \over \sigma_{k}^{n}+S_{k}^{n}}=\lambda_{k}^{{\rm single}}.{{(22)}}$
From the above two equations, it follows that
$\lambda_{k}^{\ast}\leq\omega_{k}\cdot{1 \over \ln(2)}. {1 \over \sigma_{k}^{n}+S_{k}^{n}+\sum_{j\neq k}\alpha_{jk}^{n}S_{j}^{n}} \leq\omega_{k}{1 \over \ln(2)} {1 \over \sigma_{k}^{n}+S_{k}^{n}}=\omega_{k}\lambda_{k}^{{\rm single}}.{(23)}$

Using the above result, the following initial ellipsoid may be chosen to enclose a rectangular region in which the optimal $λ$ must reside:
${\bf{A}}_0^{ - 1} = {\rm{diag}}\left( {K{{\left( {\frac{{{\omega _1}\lambda _1^{{\rm{single}}}}}{2}} \right)}^2},K{{\left( {\frac{{{\omega _2}\lambda _2^{{\rm{single}}}}}{2}} \right)}^2},...,K{{\left( {\frac{{{\omega _K}\lambda _K^{{\rm{single}}}}}{2}} \right)}^2}} \right)$
${{\bf{z}}_0} = {\left[ {\frac{{{\omega _1}\lambda _1^{{\rm{single}}}}}{2} \ldots \frac{{{\omega _K}\lambda _K^{{\rm{single}}}}}{2}} \right]^T}.{\rm{ (24)}}$
The ellipsoid updates (17)–(19) can then be carried out from this starting point.

If at any given point in the iteration, the center of the ellipsoid moves out of the feasibility region, i.e., some components of $λ$ become negative, they can be simply set to zero.

When the subgradient of the dual objective function $g (λ)$ has a bounded norm [26], the ellipsoid update is guaranteed to converge to the optimal $λ$ .
The bounded norm condition is satisfied for this problem, because $λ$ is constrained to be in a closed and bounded set.

Comparison

Comparison between the ellipsoid method and the subgradient method.
Various step-size sequences are used for the subgradient method.

Constant $(\beta)$ refers to the update rule $s^{l}=\beta$
Square Summable $(\beta)$ refers to the update rule $s^{l}=\beta/l$ .
Diminish $(\beta)$ refers to the update rule $s^{l}=(\beta)/(\sqrt{l})$ .

Fig. 5 compares the convergence behaviors of the subgradient update and the ellipsoid update.

As seen in the figure,
the convergence speed of subgradient methods depends heavily on the choice of step size,
while the ellipsoid method appears to converge faster and is more stable across a wide variety of situations.
However, the subgradient algorithm is more suitable for distributed implementation, where each user may update its own dual variable autonomously.
This is not possible with the ellipsoid method.
We also note that the computational costs per iteration for the two methods are similar.

Iterative Spectrum Balancing

上一节的结果表明，可以通过使用次梯度或椭球更新来避免 λ 搜索的指数复杂度。
然而，评估 g(λ) 的复杂性虽然在 N 中是线性的，但在 K 中仍然是指数的，因为它涉及解决 N 个非凸优化问题，对应于 N 个音调，每个音调都有 K 个变量。
然而，对于实际问题，通常存在次优的低复杂度方法。
在本节中，我们提出了一种迭代方法，可以消除评估 g(λ) 时的指数复杂度。

我们通过回顾 OSB [12] 中采用的方法开始讨论。
我们之前的讨论集中在具有连续位加载的频谱优化问题 (2) 上。
实际上，每个频率载波上的比特分配必须是整数值。
通过离散位加载，每音调非凸优化问题的解决方案简化为穷举搜索。
更具体地说，对于具有离散位约束的频谱优化问题 (2)，定义

这种新方法与 IWF 算法 [7] 有一些相似之处。
但是，它在以下两个关键方面与 IWF 不同。
首先，与每个用户在迭代的每一步中最大化自己的速率的 IWF 算法不同，上述算法优化了一个包含所有用户的联合速率的目标函数。因此，新算法有可能达到联合最优。
其次，IWF 过程中的功率约束是临时处理的，而本文提出的新算法以最优方式对功率约束进行二元化处理。然后在次梯度或椭球搜索中使用对偶变量的正确值。
我们称这种方法为 ISB。
表 I 总结了该算法。
ISB 算法

需要注意的是，ISB 算法是次优算法。
特别是，局部最优取决于初始起点和迭代的顺序。
此外，通过 g(λ) 的近似评估，不再能保证次梯度性质（即命题 1），收敛性的证明成为一个问题。
尽管如此，已经观察到 ISB 算法在我们尝试过的所有仿真设置中收敛。
此外，正如下一节中的仿真结果所示，它的性能在许多实际情况下可能接近最佳。
此外，ISB算法可以在分布式环境中自主实现，前提是相邻线路共享合适的比特分配信息。

这种新的迭代方法的计算复杂度明显低于[12]中提出的 OSB 算法。
在 g~(Sn1,…,S_{k}^{n}) 的评估中，每次迭代的计算复杂度在 K 中是线性的。
令 T1 为评估每个 g~(Sn1,…,S_{k}^{n}) 所需的迭代次数。
令 T2 为所需的次梯度或椭球更新数。
ISB 的总计算复杂度为 O(T1T2BNK)。
计算经验表明 T1 和 T2 都是 K 的多项式函数。
这很重要，因为在现实的 DSL 部署场景中 K 通常很大。
表2总结了计算复杂度比较。
这里，T3 是 IWF 中需要的迭代次数。
在实际实现中，T3 与 T1 相当。
两者都比较小。
图 5 显示了不同双更新方法的 T2 值。

表2 计算复杂度比较

最后，我们注意到 Cendrillon 和 Moonen [27] 独立并同时提出了一种略有不同的 ISB 算法。
与本文提出的算法相比，迭代和对偶更新在这种替代方法中互换。

Simulations

A. Two-User ADSL Downstream

B. Five-User VDSL Full Duplex

C. 10-User VDSL Full-Duplex

Conclusion

本文提出了多载波通信系统中非凸优化问题的对偶理论。
结果表明，如果优化问题满足分时条件，则非凸优化问题的对偶间隙为零。
此外，多载波系统中的多用户频谱优化问题在频率载波数趋于无穷大时，总是满足分时条件。

这一观察导致 DSL 的 OSB 算法有两个改进。

首先，将 OSB 算法重新解释为对偶算法导致了有效的对偶更新方法，例如次梯度法和椭球法。
其次，我们提出了一种低复杂度和迭代算法来近似评估对偶目标。
与以前的 OSB 方法相比，这种新的 ISB 算法在许多实际情况下提供了显着的复杂性降低和少量的最优性损失。
所提出的迭代算法是使 OSB 实用化的重要一步。

zzz的学习笔记本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
多载波系统中非凸频谱优化的对偶方法 ellipsoid 椭球法 subgradient 次梯度法

Dual methods for nonconvex spectrum optimization of multicarrier systems
复制链接

扫一扫