3 Decomposition Methods

最新推荐文章于 2024-03-11 22:25:43 发布

机器学习的小学生

最新推荐文章于 2024-03-11 22:25:43 发布

阅读量2k

点赞数 2

分类专栏： EE364b

EE364b 专栏收录该内容

3 篇文章

订阅专栏

分解方法是解决问题的一般方法，其将问题分解为更小的问题并且并行地或者顺序地解决每个更小的问题（当采用顺序的方式时，优点是问题的复杂性呈超线性增长（more than linearly）。
如果问题在单步操作中分解有效，那么我称该问题为（块）可分的，或者容易并行化的。例如，假定变量x可以分解为子向量 $x_1,...,x_k$ ，目标函数是每个关于 $x_i$ 函数的和。每个约束仅涉及到子矢量 $x_1,...,x_k$ 中的一个。那么显然，我们可以分别求解每个子问题（并性地），然后重组构成解x。当然这是一个容易并且无趣的例子。
更有趣的情况出现在当两个子矢量之间存在某种耦合或者交叉时，因此这一的问题不能独立的求解。对于这些情况，存在一些技术能够通过迭代的求解一系列的更小的问题来求解。存在很多方式可以做到这一点。在本文中，我们考虑一些简单的例子来阐这些思想。
在第一节，我们描述最简单地分解方法，原始分解。第二节描述对偶分解.在第4,5节探索一般的分解结构，和相关联的分解方法。第六节详细的描述两个更特殊的例子。

1 Primal decompositon

我们首先考虑第一个例子：无约束的最小化问题。形式为:

minimize f (x) = f 1 (x 1, y) + f 2 (x 2, y) (1)

$\text{minimize} f(x)=f_1(x_1,y)+f_2(x_2,y) \qquad (1)$
其中变量

x=(x1,x2,y) $x=(x_1,x_2,y)$ 。虽然在这里维度不重要，但是将

x1 $x_1$ 和

x2 $x_2$ 认为有一个相当高的维度，以及y是相当小的维度是很重要的。目标函数几乎是关于

x1 $x_1$ 和

x2 $x_2$ 是块可分的。实际上，如果我们固定子矢量y，问题变成用

x1 $x_1$ 和

x2 $x_2$ 是可分的。因此，我们可以独立的通过求解这两个子问题来求解总的问题。出于这个元音，y称为 复杂变量。因为正是这个变量连接了两个子问题。我们可以将

x1( $x_1($

x2 $x_2$ )看作是第一(二）个问题的私有变量或者局部变量,将y看作两个子问题的公有变量或者接口变量或者边界变量。
通过观察，发现当y固定的时候，问题可以进行分解，这给出了一个求解问题(1)的思路。令

ϕ1(y) $\phi_1(y)$ 表示下面问题的最优解：

minimize x 1 f 1 (x 1, y) (2)

$\text{minimize}_{x_1} f_1(x_1,y) \qquad(2)$
同样地，令

ϕ2(y) $\phi_2(y)$ 表示下面问题的最优解：

minimize x 2 f 1 (x 2, y) (3)

$\text{minimize}_{x_2} f_1(x_2,y) \qquad(3)$
（注意，如果函数

f1 $f_1$ 和

f2 $f_2$ 是凸函数（是关于x_1和y)，那么

ϕ1 $\phi_1$ 和

ϕ2 $\phi_2$ 也是凸函数）。我们称问题(2)为子问题(1)，称问题(3)为子问题(2)。
那么原问题(1)等价于问题：

minimize y ϕ 1 (y) + ϕ 2 (y)

$\text{minimize}_y \phi_1(y)+\phi_2(y)$
这个问题称为主问题。如果原问题是凸的，那么主问题也是凸的。主问题的变量是原问题的复杂变量或者耦合变量。主问题的目标函数是两个子问题最优值的和。
解决问题(1)的一个分解的方法是通过求解主问题来求解，即使用一个迭代的方法，比如次梯度方法。每一次迭代需要解决两个子问题来计算

ϕ1(y)和ϕ2(y) $\phi_1(y)和\phi_2(y)$ ，以及它们的梯度或者次梯度。这可以通过并行来计算，但是即使通过顺序的方式计算，如果问题计算的复杂度与问题的大小称超线性增长的话，则将需要大量的存储空间。
我们先看一下如何计算

ϕ1 $\phi_1$ 在y处的次梯度，并且假定问题是凸的。我们首先求解相关的子问题，即找到

x¯1(y) $\overline {x}_1(y)$ 使

f1(x1,y) $f_1(x_1,y)$ 最小化。因此，函数

f1 $f_1$ 存在形式为

(0,g1) $(0,g_1)$ 的一个次梯度，并且显然，

g1 $g_1$ 是

ϕ1 $\phi_1$ 在y处的一个次梯度。我们可以进行同样的过程找到一个次梯度

g2∈∂ϕ2(y) $g_2 \in \partial \phi_2 (y)$ ，那么

g1+g2 $g_1+g_2$ 是

ϕ1+ϕ2 $\phi_1+\phi_2$ 在y处的一个次梯度。
我们可以通过各种方法来求解主问题，包括二分法（y是1维的情况），梯度或者拟牛顿法（如果函数是可微的），次梯度方法，切平面法，或者椭球法（函数不可微的情况）。这种基本的分解方法称为原始分解，因为（某些）原变量。
当我们使用一个次梯度方法来求解主问题时，我们得到一个非常简单的原分解算法。
重复：
求解子问题（可能可以通过并行的方式）
找到

x¯1 $\overline x_1$ ，最小化

f1(x1,y) $f_1(x_1,y)$ ，以及一个次梯度

g1∈∂ϕ1(y) $g_1 \in \partial \phi_1(y)$ 。
找到

x¯2 $\overline x_2$ ，最小化

f2(x2,y) $f_2(x_2,y)$ ，以及一个次梯度

g21∈∂ϕ2(y) $g_21 \in \partial \phi_2(y)$
更新复杂变量：

y:=y−αk(g1+g2) $y:=y-\alpha_k(g_1+g_2)$
这里，

αk $\alpha _k$ 是步长，可以通过任意标准方式选择。
我们可以将这种分解方法解释如下。我们有两个带有私有变量或者局部变量

x1,x2 $x_1,x_2$ 的子问题。同样，我们在两个子问题上都有复杂变量y。再主算法的每一步，复杂变量固定，这使得两个子问题可以独立的求解。从两个局部解，我们构造主问题的一个次梯度，并且使用这个次梯度来更新复杂变量，然后重复这个过程。
当主问题中使用了一个次梯度的方法，并且

ϕ1和ϕ2 $\phi _1和\phi_2$ 是可微的时，更新过程可以很容易的理解。我们将

g1,g2 $g_1,g_2$ 解释为子问题最优值的梯度（关于y)。更新过程简单地在整个目标函数改善的方向上移动。
当含有少量的复杂变量，并且我们有好的方法或者快速的方法求解子问题时，原分解方法很有效。例如，如果其中一个子问题是二次的，我们可以解析求解。在这种情况下，最优值同样也是二次的，并且通过局部二次代价函数的一个Schur补给出。（但是，这个技巧简单，因此许多人不称其为分解方法）。
上面描述的基本的原始分解方法可以通过几个方式扩展。我们可以增加可分割的约束，即约束的形式为:

x1∈C1,x2∈C2 $x_1 \in C_1,x_2 \in C_2$ 。在这种情况下（并且或者在

domfi是所有的矢量。） $\mathbf {dom} f_i是所有的矢量。）$ ，对于y的一些选择，我们可能有

ϕi(y)=∞ $\phi _i(y)=\infty$ (也就是所,

y∉domϕ $y\notin \mathbf{dom}\phi$ 。在这种情况下，我们找到一个可以将y从

ϕ $\phi$ 分割出来切平面（在主算法中使用）。

1.1 简单的例子

我们用一个简单的，1维的复杂变量例子来阐述原分解。问题拥有(1)的形式，其中 $f_1$ 和 $f_2$ 分别是关于 $x_1和y$ ， $x_2和y$ 段线性凸函数。我们考虑特定问题的实例， $x_1 \in R^20,x_2 \in R^20$ ，并且 $f_1$ 和 $f_2$ 是各自的100个仿射函数的最大值。因为复杂变量y是标量，我们可以使用一个二分算法关于y求最优化。
图1展示了 $\phi_1 \phi_2$ ，并且 $\phi_1 +\phi_2$ 是关于y的函数。该问题的在 $y^* \approx 0.14处达到$ 最优值为 $p^*\approx1.71$ 。图2展示了
最小化 $\phi_1(y)+\phi_2(y)$ 的二分方法的过程，初始化间隔为[-1,1]。在每一步，两个子问题使用当且y值，分别的求解两个子问题。

Dual decomposition

我们可以通过引入新的变量到问题(1)的分解中，采用对偶问题。首先引入一个新的变量和等式约束，我们将问题表示为：

minimize f (x) = f 1 (x 1, y 1) + f 2 (x 2, y 2)

$\text{minimize} f(x)=f_1(x_1,y_1)+f_2(x_2,y_2)$

subject to y 1 = y 2

$\text{subject to} y_1=y_2$
我们引入了复杂变量y的一般局部版本，并且满足一致约束，即两个局部版本相等。注意到现在目标函数是关于

(x1,y1)和(x2,y2) $(x_1,y_1)和(x_2,y_2)$ 可分的。
现在我们构造对偶问题。拉格朗日函数为：

L (x 1 y 1, x 2, y 2) = f 1 (x 1, y 1) + f 2 (x 2, y 2) + v T y 1 - v T y 2

$L(x_1y_1,x_2,y_2)=f_1(x_1,y_1)+f_2(x_2,y_2)+v^Ty_1-v^Ty_2$
其是可分的。对偶函数为:

g (v) = g 1 (v) + g 2 (v)

$g(v)=g_1(v)+g_2(v)$
其中

g 1 (v) = inf x 1, y 1 (f 1 (x 1, y 1) + v T y 1) ， g 2 (v) = inf x 2, y 2 (f 1 (x 2, y 2) + v T y 2)

$g_1(v)=\inf_{x_1,y_1} \big (f_1(x_1,y_1)+v^Ty_1 \big)，g_2(v)=\inf_{x_2,y_2} \big (f_1(x_2,y_2)+v^Ty_2 \big)$
注意

g1 $g_1$ 和

g2 $g_2$ 完全可以独立的计算（即并行的方式）。同时也注意，

g1 $g_1$ 和

g2 $g_2$ 可以表示为函数

f1 $f_1$ 和

f2 $f_2$ 的共轭形式：

g 1 (v) = - f * 1 (0, - v), g 2 (v) = - * 2 (0, v)

$g_1(v)=-f_1^*(0,-v),g_2(v)=-_2^*(0,v)$
对偶问题是:

maximize g 1 (v) + g 2 (v) = - f * 1 (0, - v) - f * 2 (0, v) (6)

$\text{maximize} g_1(v)+g_2(v)=-f_1^*(0,-v)-f_2^*(0,v) \quad (6)$
变量为v。这是对偶分解形式的主问题。使用次梯度，切平面或者其他方法求解这个主问题。
计算

−g1(or−g2) $-g_1(or -g_2)$ 很容易。我们找到使得函数

f1(x1,y1)+vTy1 $f_1(x_1,y_1)+v_Ty_1$ 关于

x1,y1 $x_1,y1$ 最小化的

x1,y1 $x_1,y1$ 。那么

−g1 $-g_1$ 在v处的一个次梯度通过

−y¯1 $-\overline y_1$ 给出。同样地，。我们找到使得函数

f2(x2,y2)+vTy2 $f_2(x_2,y_2)+v_Ty_2$ 关于

x2,y2 $x_2,y2$ 最小化的

x2,y2 $x_2,y2$ 。那么

−g2 $-g_2$ 在v处的一个次梯度通过

−y¯2 $-\overline y_2$ 给出。这样负对偶函数

−g $-g$ 的一个次梯度通过

y¯2−y¯1 $\overline y_2 -\overline y_1$ 给出，它仅仅是一致性的约束残差。
如果我们使用一个次梯度方法求解主问题，那么对偶分解算法有一个非常简单的形式。
重复：
求解子问题(可能并行的方式）
找到最小化

f1(x1,y1)+vTy1 $f_1(x_1,y_1)+v^Ty_1$ 的

x1 $x_1$ 和

y1 $y_1$ 。找到最小化

f2(x2,y2)−vTy2 $f_2(x_2,y_2)-v^Ty_2$ 的

x2 $x_2$ 和

y2 $y_2$ 。
更新对偶变量(价格)

v : = v - α k (y 2 - y 1)

$v:=v-\alpha_k(y_2-y_1)$

这里 $\alpha_k$ 是步长，可以通过一些方式选择。如果对偶函数g是可微的，我们可以选择一个固定的步长，并且假定其足够的小。在这种情况下，另外一个选择是在对偶目标函数上进行线性搜索。如果对偶函数是非可微的，我们可以使用一个不断减小的不可和的步长，例如 $\alpha_k=\alpha/k$ 。
在对偶分解算法的每一步，关于 $p^*$ 我们有一个下界，即原问题的最优值，通过下式给出：

p * \geq g (v) = f 1 (x 1, y 1) + v T y 1 + f 2 (x 2, y 2) - v T y 2

$p^* \geq g(v)=f_1(x_1,y_1)+v^Ty_1+f_2(x_2,y_2)-v^Ty_2$
其中

x1,y1,x2,y2 $x_1,y_1,x_2,y_2$ 是迭代项。一般地，迭代项不是原问题的可行解，也就是说

y2−y1\noteq0 $y_2-y_1 \noteq 0$ (如果它们是可行的，我们有最大化的g)。
一个合理猜测的可行点可以从迭代项中构造为:

(x 1, y ¯), (x 2, y ¯)

$(x_1,\overline y),(x_2,\overline y)$
其中

y¯=(y1+y2)/2 $\overline y=(y_1+y_2)/2$ 。换句话说，我们使用它们的平均值替代

y1 $y_1$ 和

y2 $y_2$ （它们是不同的）。这个平均值是

(y1,y2) $(y_1,y_2)$ 到可行集

y1=y2 $y_1=y_2$ 的投影。这给处了关于

p∗ $p^*$ 的一个上界，通过下面的不等式给出:

p * \leq f 1 (x 1, y ¯) + f 2 (x 2, y ¯)

$p^* \leq f_1(x_1,\overline y)+f_2(x_2,\overline y)$
一个更好的可行点可以通过将

y1 $y_1$ 和

y2 $y_2$ 替换为平均值来找到，然后求解原分解中碰到的两个子问题(2)和(3)，也就是说计算

ϕ1(y¯)+ϕ12(y¯) $\phi_1(\overline y)+\phi_12(\overline y)$ ,这给定边界:

p * \leq ϕ 1 (y ¯) + ϕ 2 (y ¯) .

$p^*\leq \phi_1(\overline y)+\phi_2(\overline y).$

2.1 Simple example

我们使用同样的简单的例子来阐述对偶分解。图3展示了关于v的 $g_1,g_2$ 以及 $g_1+g_2$ 。v的最优值是 $v^* \approx -0.27$ 。图4展示了二分法求解最大化 $g_1(v)+g_2(v)$ 的过程，从初始间隔为[-1,1]开始。在每一步，使用当前的价格v，来独立地求解两个子问题。我们也展示了关于 $p^*$ 的两个上界。较大的（较差的）边界是 $f_1(x_1+\overline y)+f_2(x_2+\overline y)$ 。较小的（较好的）边界是 $\phi_1(\overline y)+\phi_2(\overline y)$ (通过求解子问题(2)和(3)获得）。