线性规划单纯形法【推导+实例】

格兰芬多_未名

已于 2024-03-19 11:51:40 修改

阅读量1.4k

点赞数 33

分类专栏：凸优化文章标签：最优化线性规划单纯形法

于 2024-03-19 11:31:43 首次发布

本文链接：https://blog.csdn.net/v20000727/article/details/136836730

版权

凸优化专栏收录该内容

6 篇文章 1 订阅

订阅专栏

在这里插入图片描述

文章目录

一、标准形式
二、极点、极方向
三、线性规划基本性质
- （1）最优解会在极点处取得
- （2）基本可行解
四、单纯形法
- （1）数学理论
- （2）实例
Reference

一、标准形式

线性规划的标准形式如下：
$\begin{equation} \begin{aligned} &\min \mathbf{c^T}x\\ & s.t. \quad \boldsymbol{Ax = b}, \qquad (LP) \\ & \qquad \quad \boldsymbol{x\geq 0} \end{aligned} \end{equation}$
其中 $\boldsymbol{A}$ 是 $m\times n$ 的矩阵， $\boldsymbol{c}$ 是n为列向量， $\boldsymbol{b}$ 是m维列向量。当变量有上下界，不满足标准形式时，需要引入松弛变量将问题转化为标准形式。

二、极点、极方向

定义（极点）

对于任意凸集 $S$ ， $S$ 内一向量 $\pmb{x}$ 如果是 $S$ 的极点，那么不存在不同于 $\pmb{x}$ 的两个向量 $\pmb{y},\pmb{z}$ ，使得 $\pmb{x}=\lambda \pmb{y}+(1-\lambda)\pmb{z},0\le \lambda \le 1$ 。

Note:

极点不能表示成两个不同点的组合；
极点不在 $S$ 中任何线段的内部；
显然，多边形的顶点和圆周上的任意一点都是极点；

定义（方向）

设 $S$ 为 $\mathbb{R}^n$ 中的闭凸集, $\boldsymbol{d}$ 为非零向量, 如果对 $S$ 中的每一个 $\boldsymbol{x}$ , 都有
$\{\boldsymbol{x}+\lambda \boldsymbol{d} \mid \lambda \geqslant 0\} \subset S,$
则称向量 $\boldsymbol{d}$ 为 $S$ 的方向.

定义（极方向）

设 $\boldsymbol{d}^{(1)}$ 和 $\boldsymbol{d}^{(2)}$ 是 $S$ 的两个方向, 若对任何正数 $\lambda$ , 有 $\boldsymbol{d}^{(1)} \neq \lambda \boldsymbol{d}^{(2)}$ , 则称 $\boldsymbol{d}^{(1)}$ 和 $\boldsymbol{d}^{(2)}$ 是两个不同的方向. 若 $S$ 的方向 $\boldsymbol{d}$ 不能表示成该集合的两个不同方向的正的线性组合,则称 $\boldsymbol{d}$ 为 $S$ 的极方向.

显然,有界集不存在方向, 因而也不存在极方向. 对于无界集才有方向的概念.

例

设 $S=\{\boldsymbol{x} \mid \boldsymbol{A} \boldsymbol{x}=\boldsymbol{b}, \boldsymbol{x} \geqslant \boldsymbol{0}\}$ 为非空集合, $\boldsymbol{d}$ 是非零向量. 证明 $\boldsymbol{d}$ 为 $S$ 的方向的充要条件是 $\boldsymbol{d} \geqslant \boldsymbol{0}$ 且 $\boldsymbol{A d}=\mathbf{0}$ .

证明 :

按照定义, $d$ 为 $S$ 的方向的充要条件是: 对每一个 $\in S$ , 有
$\{\boldsymbol{x}+\lambda \boldsymbol{d} \mid \lambda \geqslant 0\} \subset S . \quad (1)$
根据集合 $S$ 的定义, (1)式即
$\begin{aligned} & \boldsymbol{A}(\boldsymbol{x}+\lambda \boldsymbol{d})=\boldsymbol{b}, \\ & \boldsymbol{x}+\lambda \boldsymbol{d} \geqslant \mathbf{0} . \end{aligned} \quad (2)$
由于 $\boldsymbol{A} \boldsymbol{x}=\boldsymbol{b}, \boldsymbol{x} \geqslant \boldsymbol{0}$ 及 $\lambda$ 可取任意非负数, 因此由 (2)式知 $\boldsymbol{A} \boldsymbol{d}=\mathbf{0}$ 及 $\boldsymbol{d} \geqslant \mathbf{0}$ .

下面给出多面集的一个重要性质, 这就是所谓的表示定理.
定理（表示定理）

设 $S=\{\boldsymbol{x} \mid \boldsymbol{A} \boldsymbol{x}=\boldsymbol{b}, \boldsymbol{x} \geqslant \boldsymbol{0}\}$ 为非空多面集,则有:
(1) 极点集非空, 且存在有限个极点 $x^{(1)}, \cdots, x^{(k)}$ .
(2) 极方向集合为空集的充要条件是 $S$ 有界. 若 $S$ 无界, 则存在有限个极方向 $\boldsymbol{d}^{(1)}, \cdots, \boldsymbol{d}^{(n)}$ .
(3) $\in S$ 的充要条件是:
$\begin{aligned} & x=\sum_{j=1}^k \lambda_j x^{(j)}+\sum_{j=1}^l \mu_j d^{(j)}, \\ & \sum_{j=1}^k \lambda_j=1, \\ & \lambda_j \geqslant 0, \quad j=1, \cdots, k, \\ & \mu_j \geqslant 0, \quad j=1, \cdots, l . \end{aligned}$

三、线性规划基本性质

（1）最优解会在极点处取得

由表示定理可以推出如下的定理，具体的证明见《最优化理论与算法（陈宝林）》

定理

设线性规划(LP)的可行域非空, 则有下列结论:

若线性规划存在有限最优解, 则目标函数的最优值可在某个极点上达到.

Note：

也就是说一定会在某个极点上取得最优解

（2）基本可行解

在线性规划(LP)中, 设矩阵 $\boldsymbol{A}$ 的秩为 $m$ （m<=n), 又假设 $\boldsymbol{A}=[\boldsymbol{B}, \boldsymbol{N}]$ , 其中 $\boldsymbol{B}$ 是 $m$ 阶可逆矩阵（如果 $r ank (A) < m$ ，说明有冗余行，可以消去）. 如果 $\boldsymbol{A}$ 的前 $m$ 列是线性相关的, 可以通过列调换, 使前 $m$ 列成为线性无关的, 因此关于 $\boldsymbol{B}$ 可逆的假设不失一般性. 同时记作
$x=\left[\begin{array}{l} x_B \\ x_N \end{array}\right],$
其中 $x_B$ 的分量与 $B$ 中的列对应, $x_N$ 的分量与 $N$ 的列对应. 这样, 可把 $A x = b$ 写成
$N)\left[\begin{array}{l} x_B \\ x_N \end{array}\right]=b,$
即
$B x_B+N x_N=b .$
上式两端左乘 $\boldsymbol{B}^{-1}$ , 并移项, 得到
$\boldsymbol{x}_{\boldsymbol{B}}=\boldsymbol{B}^{-1} \boldsymbol{b}-\boldsymbol{B}^{-1} \boldsymbol{N} \boldsymbol{x}_N,$
$x_N$ 的分量就是线性代数中所谓的自由末知量,它们取不同的值, 就会得到方程组的不同的解. 特别地, 令 $x_N=\mathbf{0}$ , 则得到解
$x=\left[\begin{array}{l} x_B \\ x_N \end{array}\right]=\left[\begin{array}{c} B^{-1} b \\ 0 \end{array}\right] .$
定义（基本解）

将
$x=\left[\begin{array}{l} x_B \\ x_N \end{array}\right]=\left[\begin{array}{c} B^{-1} b \\ 0 \end{array}\right]$ 称为方程组 $\boldsymbol{A x}=\boldsymbol{b}$ 的一个基本解；
$\boldsymbol{B}$ 称为基矩阵，简称为基；
$\boldsymbol{x}_{\boldsymbol{B}}$ 的各分量称为基变量, 基变量的全体 $x_{B_1}, x_{B_2}, \cdots, x_{B_m}$ 称为一组基;
$x_N$ 的各分量称为非基变量.

又若 $\boldsymbol{B}^{-1} \boldsymbol{b} \geqslant \boldsymbol{0}$ , 则称
$\boldsymbol{x}=\left[\begin{array}{c} x_B \\ x_N \end{array}\right]=\left[\begin{array}{c} B^{-1} b \\ 0 \end{array}\right]$ 为约束条件 $\boldsymbol{A x}=\boldsymbol{b}, \boldsymbol{x} \geqslant \boldsymbol{0}$ 的基本可行解. 相应地, 称 $\boldsymbol{B}$ 为可行基矩阵, $x_{\boldsymbol{B}_1}, x_{\boldsymbol{B}_2}, \cdots, x_{\boldsymbol{B}_m}$ 为一组可行基. 若 $\boldsymbol{B}{ }^1 \boldsymbol{b}>\mathbf{0}$ , 即基变量的取值均为正数, 则称基本可行解是非退化的. 如果满足 $\boldsymbol{B}^{-1} \boldsymbol{b} \geqslant 0$ 且至少有一个分量是零, 则称基本可行解是退化的基本可行解.

每一组基对应一个基本解，一般地, 当 $\boldsymbol{A}$ 是 $\times n$ 矩阵, $\boldsymbol{A}$ 的秩为 $m$ 时, 基本可行解的个数不会超过:
$\left(\begin{array}{l} n \\ m \end{array}\right)=\frac{n !}{m !(n-m) !} .$
定理（极点和基本可行解等价）

令 $K=\{\boldsymbol{x} \mid \boldsymbol{A} \boldsymbol{x}=\boldsymbol{b}, \boldsymbol{x} \geqslant \boldsymbol{0}\}, \boldsymbol{A}$ 是 $\times n$ 矩阵, $\boldsymbol{A}$ 的秩为 $m$ , 则 $K$ 的极点集与 $\boldsymbol{A x}=\boldsymbol{b}, \boldsymbol{x} \geqslant \boldsymbol{0}$ 的基本可行解集等价.

证明见《最优化理论与算法（陈宝林）》第二章。

Note:

线性规划的最优解会在某个极点达到；
极点和基本可行解等价；
所以线性规划问题的求解，可以归结为求最优基本可行解；
这个思想是单纯形法的主要出发点。

四、单纯形法

由上节的介绍我们知道线性规划的最优解会出现在某个顶点，而单纯形法的主要思想是从一个顶点出发，去找下一个能让目标函数变小（或者变大）的顶点。而如何去寻找这样的顶点，从数学上来说其实就是基本可行解的转换。

（1）数学理论

考虑问题
$\begin{array}{ll} \min \quad f \stackrel{\text { def }}{=} \boldsymbol{c} \boldsymbol{x} \\ \text { s. t. } \quad A \boldsymbol{x}=\boldsymbol{b}, \\ & \boldsymbol{x} \geqslant \boldsymbol{0}, \end{array}$ 其中 $\boldsymbol{A}$ 是 $\times n$ 矩阵,秩为 $\boldsymbol{c}$ 是 $n$ 维行向量, $\boldsymbol{x}$ 是 $n$ 维列向量, $\boldsymbol{b} \geqslant \boldsymbol{0}$ 是 $m$ 维列向量. 记：
$\boldsymbol{A}=\left(\boldsymbol{p}_1, \boldsymbol{p}_2, \cdots, \boldsymbol{p}_n\right) .$ 现将 $\boldsymbol{A}$ 分解成 $(\boldsymbol{B}, \boldsymbol{N})$ (可能经列调换), 使得其中 $\boldsymbol{B}$ 是基矩阵, $\boldsymbol{N}$ 是非基矩阵, 设
$\boldsymbol{x}^{(0)}=\left[\begin{array}{c} \boldsymbol{B}^{-1} \boldsymbol{b} \\ \mathbf{0} \end{array}\right]$ 是基本可行解,在 $\boldsymbol{x}^{(0)}$ 处的目标函数值
$\begin{aligned} f_0 & =\boldsymbol{c x}^{(0)}=\left(\boldsymbol{c}_{\boldsymbol{B}}, \boldsymbol{c}_N\right)\left[\begin{array}{c} \boldsymbol{B}^{-1} \boldsymbol{b} \\ \mathbf{0} \end{array}\right] \\ & =\boldsymbol{c}_{\boldsymbol{B}} \boldsymbol{B}{ }^1 \boldsymbol{b}, \end{aligned}$ 其中 $\boldsymbol{c}_B$ 是 $\boldsymbol{c}$ 中与基变量对应的分量组成的 $m$ 维行向量. $\boldsymbol{c}_N$ 是 $c$ 中与非基变量对应的分量组成的 $n - m$ 维行向量。现在分析怎样从基本可行解 $\boldsymbol{x}^{(0)}$ 出发, 求一个改进的基本可行解.
设
$x=\left[\begin{array}{l} x_B \\ x_N \end{array}\right]$ 是任一个可行解, 则由 $\boldsymbol{A x}=\boldsymbol{b}$ 得到
$\boldsymbol{x}_{\boldsymbol{B}}=\boldsymbol{B}^{-1} \boldsymbol{b}-\boldsymbol{B}^{-1} \boldsymbol{N} \boldsymbol{x}_N,$ 在点 $\boldsymbol{x}$ 处的目标函数值
$\begin{aligned} f & =\boldsymbol{c} \boldsymbol{x}=\left(c_B, c_N\right)\left[\begin{array}{l} x_B \\ x_N \end{array}\right] \\ & =c_B x_B+c_N x_N \\ & =c_B\left(\boldsymbol{B}^{-1} \boldsymbol{b}-\boldsymbol{B}^{-1} \boldsymbol{N} x_N\right)+c_N x_N \\ & =c_B \boldsymbol{B}^{-1} \boldsymbol{b}-\left(\boldsymbol{c}_B \boldsymbol{B}^{-1} \boldsymbol{N}-\boldsymbol{c}_N\right) \boldsymbol{x}_N \\ & =f_0-\sum_{j \in R}\left(\boldsymbol{c}_B \boldsymbol{B}^{-1} \boldsymbol{p}_j-c_j\right) x_j \\ & =f_0-\sum_{j \in \mathbb{R}}\left(z_j-c_j\right) x_j, \end{aligned} \qquad (1)$ 其中 $R$ 是非基变量下标集,
$z_j=\boldsymbol{c}_{\boldsymbol{B}} \boldsymbol{B}^{-1} \boldsymbol{p}_j .$ 由 (1) 式可知, 适当选取自由末知量 $x_j(j \in R)$ 的数值就有可能使得
$\sum_{j \in R}\left(z_j-c_j\right) x_j>0,$ 从而得到使目标函数值减少的新的基本可行解. 为此, 在原来的 $n - m$ 个非基变量中, 使得 $n - m - 1$ 个变量仍然取零值, 而令一个非基变量, 比如 $x_k$ 增大, 即取正值, 以便实现我们的目的. 那么怎样确定下标 $k$ 呢? 根据 (1) 式, 当 $x_j(j \in R)$ 取值相同时, $z_j-c_j$ (正数)越大, 目标函数值下降越多, 因此选择 $x_k$ , 使
$z_k-c_k=\max _{j \in R}\left\{z_j-c_j\right\},$ 这里假设 $z_k-c_k>0 . x_k$ 由零变为正数后, 得到方程组 $\boldsymbol{A x}=\boldsymbol{b}$ 的解
$\boldsymbol{x}_{\boldsymbol{B}}=\boldsymbol{B}^{-1} \boldsymbol{b}-\boldsymbol{B}^{-1} \boldsymbol{p}_k x_k=\overline{\boldsymbol{b}}-\boldsymbol{y}_k x_k,$ 其中 $\bar{b}$ 和 $\boldsymbol{y}_k$ 是 $m$ 维列向量, $\bar{b}=\boldsymbol{B}^{-1} \boldsymbol{b}, \boldsymbol{y}_k=\boldsymbol{B}^{-1} \boldsymbol{p}_k$ , 把 $\boldsymbol{x}_{\boldsymbol{B}}$ 按分量写出, 即
$\boldsymbol{x}_B=\left[\begin{array}{c} x_{B_1} \\ x_{B_2} \\ \vdots \\ x_{B_m} \end{array}\right]=\left[\begin{array}{c} \bar{b}_1 \\ \bar{b}_2 \\ \vdots \\ \bar{b}_m \end{array}\right]-\left[\begin{array}{c} y_{1 k} \\ y_{2 k} \\ \vdots \\ y_{m k} \end{array}\right] x_k, \qquad (2)$

$\boldsymbol{x}_N=\left(0, \cdots, 0, x_k, 0, \cdots, 0\right)^{\mathrm{T}},$

在新得到的点, 目标函数值是
$f=f_0-\left(z_k-c_k\right) x_k .\qquad (3)$
再来分析怎样确定 $x_k$ 的取值. 一方面, 根据(3) 式, $x_k$ 取值越大函数值下降越多; 另一方面, 根据 (2) 式, $x_k$ 的取值受到可行性的限制, 它不能无限增大 (当 $\boldsymbol{y}_k \leqslant 0$ 时). 对某个 $i$ , 当 $y_{i k} \leqslant 0$ 时, $x_k$ 取任何正值时, 总成立 $x_{B_i} \geqslant 0$ , 而当 $y_{i k}>0$ 时, 为保证
$x_{B_i}=\bar{b}_i-y_{i k} x_k \geqslant 0 \text {, }$
就必须取值
$x_k \leqslant \frac{\bar{b}_i}{y_{i k}}$
因此, 为使 $x_B \geqslant 0$ , 应令
$x_k=\operatorname{min}\left\{\frac{\bar{b}_i}{y_{i k}} \mid y_{i k}>0\right\}=\frac{\bar{b}_r}{y_{r k}},$
$x_k$ 取值 $\bar{b}_r / y_{r k}$ 后, 原来的基变量 $x_b=0$ , 得到新的可行解这个解一定是基本可行解. 因为原来的基
$\boldsymbol{B}=\left(\boldsymbol{p}_{\boldsymbol{B}_1}, \cdots, \boldsymbol{p}_{\boldsymbol{B}_r}, \cdots, \boldsymbol{p}_{\boldsymbol{B}_m}\right)$
中的 $m$ 个列是线性无关的, 其中不包含 $\boldsymbol{p}_k$ . 由于 $\boldsymbol{y}_k=\boldsymbol{B}^{-1} \boldsymbol{p}_k$ , 故
$\boldsymbol{p}_k=\boldsymbol{B} y_k=\sum_{i=1}^m y_{i k} \boldsymbol{p}_{\boldsymbol{B}_t},$
即 $\boldsymbol{p}_k$ 是向量组 $\boldsymbol{p}_{\boldsymbol{B}_1}, \cdots, \boldsymbol{p}_{\boldsymbol{B}_r}, \cdots, \boldsymbol{p}_{\boldsymbol{B}_m}$ 的线性组合, 且系数 $y_{r k} \neq 0$ . 因此用 $\boldsymbol{p}_k$ 取代 $\boldsymbol{p}_{\boldsymbol{B}_r}$ 后, 得到的向量组
$p_{B_1}, \cdots, p_k, \cdots, p_{B_m},$
也是线性无关的. 因此新的可行解 $\boldsymbol{x}$ 的正分量对应的列线性无关,故 $\boldsymbol{x}$ 为基本可行解.
经上述转换, $x_k$ 由原来的非基变量变成基变量,而原来的基变量 $x_{B_r}$ 变成非基变量. 在新的基本可行解处, 目标函数值比原来减少了 $\left(z_k-c_k\right) x_k$ . 重复以上过程, 可以进一步改进基本可行解, 直到在 (1) 式中所有 $z_j-c_j$ 均非正数, 以致任何一个非基变量取正值都不能使目标函数值减少时为止.

定理（单纯形法判别数）

若在极小化问题中, 对于某个基本可行解, 所有 $z_j-c_j \leqslant 0$ , 则这个基本可行解是最优解;
若在极大化问题中, 对于某个基本可行解, 所有 $z_j-c_j \geqslant 0$ , 则这个基本可行解是最优解.

其中:
$z_j-c_j=\boldsymbol{c}_{\boldsymbol{B}} \boldsymbol{B}^{-1} \boldsymbol{p}_j-c_j, \quad j=1, \cdots, n .$