Heterogeneous Attentions for Solving Pickup and Delivery Problem via Deep Reinforcement Learning

好奇小圈

已于 2023-01-07 11:38:21 修改

阅读量338

点赞数 1

分类专栏：论文阅读文章标签：深度强化学习 PDP问题策略网络异构注意力马尔科夫决策过程

于 2022-11-25 16:08:23 首次发布

原文链接：https://ieeexplore.ieee.org/document/9352489

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

前言
一、PDP问题
二、方法
实验与分析
总结

前言

论文阅读笔记：Heterogeneous Attentions for Solving Pickup and Delivery Problem via Deep Reinforcement Learning

一、PDP问题

定义：载具从仓库开始，依次访问所有取货节点和配送节点，只执行一次服务，最后返回仓库，尽可能地节省时间。注意，这里PDP允许连续的拾取或交付，或它们的混合，只要它满足优先约束。

$n$ ：客户请求数量
$P=\{ x_i \}_{i=1}^n$ ：pickup node set
$D=\{ x_i \}_{i=n+1}^{2n}$ ：delivery node set
$x_i$ ：pickup node
$x_{n+1}$ ：delivery node，与 pickup node 为成对的，具有优先级关系
仓库：node 0
$X=\{ x_0 \} \cup P \cup D$ ：complete node set
$X'=\{ x_{2n+1} \} \cup X =\{ x_i \}_{i=0}^{2n+1}$ ：其中 $x_{2n+1}$ 为仓库的copy
${ c_i \}$ ：包含 ${ x_i \}$ 二维坐标
$v$ ：载具，从 $x_i$ 全部运输到从 $x_i+n$ （有无限的运输能力）
$D_{ij}$ ：表示节点 $x_i$ 到节点 $x_j$ 的欧氏距离
$f$ 为载具 $v$ 的速度
$y_{ij} \in \{ 0,1 \}$ ：二元变量，指示载具 $v$ 是否直接从节点 $x_i$ 到节点 $x_j$
$B_{i}$ ：表示节点 $x_i$ 的到达时间
$M$ 是一个足够大的数

为追求速度尽量快、距离尽量短，可以得到如下目标函数：
$\min \sum_{i \in X} \sum_{j \in X} \frac{D_{i j}}{f} y_{i j}$
约束条件如下：
$\begin{aligned} \sum_{j \in X} y_{i j} &=1, \quad i \in X^{\prime}\\ \sum_{i \in X} y_{i j} &=1, \quad j \in X^{\prime}\\ B_j & \geq B_i+\frac{D_{i j}}{f}-M\left(1-y_{i j}\right), \quad i \in X^{\prime}, j \in X^{\prime}\\ B_{i+n} & \geq B_i+\frac{D_{i, i+n}}{f}, \quad i \in P, i+n \in D\\ y_{i j} &=\{0,1\}, \quad i \in X^{\prime}, j \in X^{\prime} \\ B_i & \geq 0, \quad i \in X^{\prime} \end{aligned}$

二、方法

1.PDP问题的RL形式

形式说明：
在这里插入图片描述
如图所示，其中节点1-3、2-4各自成对，节点1和2为pickup node，3和4位delivery node。
第一步：由于优先性限制，先将3和4掩盖。先选择节点1，之后将节点3去掩盖。路径中记录节点1，奖励为负值的时间。
第二步：选择节点2，余下与第一步同理。

Markov Decision Process (MDP)：
通常意义上的MDP马尔科夫决策过程包含一个五元组 $<S,A,P,R,\gamma>$
$S$ ：有限状态集合；
$A$ ：有限动作集合；
$P$ ：状态转移概率矩阵 $P_{ss'}^{a}=p (s_{t+1} = s' | s_t = s,A_t=a)$ ；状态转移矩阵 P 表现为，既当前状态为 $s_t=s$ 时，下一个状态变为 $s_{t+1}= s'$ 的概率。
$R$ ：奖励函数 $R_S^{a}=E[R_{t+1}|S_t=s,A_t=a]$ ，既状态单次转换取得的收益；
$γ$ ：折扣因子/衰减系数 $γ \in [0, 1]$ 。

状态： $s_t=(L_t)$ 表示在时间 $t$ 时的部分解决方案，其中 $L_t$ 包含访问过的节点（含仓库）。

动作：在路径构建过程中，动作 $a_t$ 用 $x_j)$ 表示。如步数 $t$ 时选择节点 $x_j$ 。

转移：下一状态 $s_{t+1}=(L_{t+1})=(L_t;{x_j})$ ，源于步数 $t$ 是，在状态 $s_t$ 时选择的节点。其中 $;$ 表示将选择的节点与之前的路径连接。

奖励：为了使路线的总旅行时间最小，将奖励定义为目标值的负数，目标值由所有步骤的旅行时间的负数相加得到。 $R=\sum^{T}_{t=1}r_t$ 。
$r_{t+1}=r(s_{t+1},a_{t+1})=r((L_{t+1}),(x_j))=-\frac{D_{ij}}{f}$

策略：随机策略 $p_\theta$ 在优先级约束下，在每个时间步自动选择一个节点。这个过程被反复重复，直到完成所有的取货-送货服务。执行该策略的最终结果是所有节点的排列，它规定了车辆访问每个节点的顺序。如： $\pi=\{ \pi_1,\pi_1,...,\pi_T \}$ 。链式分解为：
$P(\pi \mid X)=\prod_{t=0}^{T-1} p_\theta\left(\pi_t \mid X, \pi_{1: t-1}\right)$
其中 $X$ 是问题实例的输入。根据所学到的pθ进行节点选择决策。

2.基于异构注意力的策略网络

演员网络（actor network）和评论家网络（critic network）的强化学习方法。
演员网络（actor network）：在给定当前状态的所有动作上生成一个概率向量，然后相应地选择一个动作，迭代重复直到终止条件。其奖励是靠每一步的奖励累加得到的。

评论家网络（critic network）：作为actor network的基准，计算基准奖励只依赖初状态。

在收到两个网络的奖励后，学习策略 $p_\theta$ 。
在这里插入图片描述

（1）编码器：

将pickup node和delivery node连接起来 $x_i=(x_i;x_{i+n})$ ，增强配对关系。其中 $;$ 表示将选择的向量连接。然后线性投影到一个 $d_h=128$ 维度的空间中。之后 node embeddings通过 $N$ 个注意力层，每个注意层包含一个多头注意子层和一个前馈(FF)子层。

$i$ 为节点的指针，
$h_i^{l-1},i \in X$ 表示注意力层 $l - 1$ 的node embedding。
$d_k$ 为 $q u ery / k ey$ 维度，
$d_v$ 为 $v a l u e$ 维度，
$M$ 是（异构注意力网络）的“头”数量，文章里取8。
$d_k=d_v=\frac{d_h}{M}$

给定输入序列 $X$ ，自我注意力机制学习序列中任意两个元素之间的关系，以计算该序列的表示可以更好地提取特征。

为捕获关系， $q u ery, k ey, v a l u e$ 向量基于 $X$ 创建：
$Q_i=W^Q h_i^{l-1},\\ K_i=W^K h_i^{l-1}, \\V_i=W^V h_i^{l-1}, \\i \in X,$
其中 $W^Q, W^K \in R^{d_h \times d_k}$ 和 $W^V \in R^{d_h \times d_v}$ 都为可以训练的参数矩阵。

缩放点积作为 $q u ery$ 和 $k ey$ 的相似度函数（compatibility function），来衡量两个节点之间的重要性；然后再通过softmax函数计算所有节点的权重，求解中典型VRP的原始自我注意计算如下:

$a_{i j}=\operatorname{softmax}\left(\frac{Q_i^T K_j}{\sqrt{d_k}}\right), i, j \in X$
其中， $a_{ij}$ 的值越大，说明节点 $x_i$ 越依赖于节点 $x_j$ 。

PDP节点中可能有异构角色，比如取件节点和派送节点的角色不同；配送前必须取货；允许连续访问多个取件/交付节点。对节点的均匀处理可能会限制解决方案质量。

故而设计了六种注意力。每个pickup node构建三种类型的注意力，分别学习与其配对的delivery node、所有pickup node和所有delivery node的关系。同样的为每个delivery node构建类似的关系。
核心注意力–配对节点：
$\begin{aligned} &Q_i^{p d}=W^{Q_{p d}} h_i^P, \quad K_i^{p d}=W^K h_{i+n}^D, \quad V_i^{p d}=W^V h_{i+n}^D, \\ &Q_i^{d p}=W^{Q_{d p}} h_i^D,\quad K_i^{d p}=W^K h_{i-n}^P, \quad V_i^{d p}=W^{V^V} h_{i-n}^P \end{aligned}$
核心注意力–pickup node与任意节点：
$\begin{aligned} &Q_i^{p P}=W^{Q_{p P}} h_i^P, \quad K_i^{p P}=W^K h_i^P, \quad V_i^{p P}=W^V h_i^P \\ &Q_i^{p D}=W^{Q_{p D}} h_i^P, \quad K_i^{p D}=W^K h_i^D, \quad V_i^{p D}=W^V h_i^D \end{aligned}$
核心注意力–delivery node与任意节点：
$\begin{aligned} &Q_i^{d P}=W^{Q_{d P}} h_i^D,\quad K_i^{d P}=W^K h_i^P, \quad V_i^{d P}=W^V h_i^P \\ &Q_i^{d D}=W^{Q_{d D}} h_i^D,\quad K_i^{d D}=W^K h_i^D, \quad V_i^{d D}=W^V h_i^D \end{aligned}$
$h_i^P$ 是第 $i$ 个pickup node 的 embedding
$h_j^D$ 是第 $j$ 个delivery node 的 embedding
$h^{l-1}=Concat(h_0,h_i^P,h_j^D), \forall i \in P, \forall j \in D$ 为低 $l - 1$ 层的node embedding

所有参数矩阵都是可以训练的，并且与原始矩阵具有相同的大小。注意，为了加快训练速度，共享了7类注意力的所有 $k ey$ 和 $v a l u e$ 的参数矩阵，而独立保留了 $q u ery$ 的所有参数矩阵，为的是从不同的角度学习问题的性质。

即时注意力–配对节点
$\begin{aligned} &a_{i, i+n}^{p d}=\operatorname{softmax}\left(\frac{Q_i^{p d} * K_{i+n}^{p d}}{\sqrt{d_k}}\right), i \in P \\ &a_{i, i-n}^{d p}=\operatorname{softmax}\left(\frac{Q_i^{d p} * K_{i-n}^{d p}}{\sqrt{d_k}}\right), i \in D \end{aligned}$
$*$ 为元素积

即时注意力–剩余四种注意力
$a_{i j}^y=\operatorname{softmax}\left(\frac{Q_i^{y T} K_j^y}{\sqrt{d_k}}\right), y \in\{p P, p D, d P, d D\}$

多头向量拼接不同的M头信息如下式，

$\operatorname{MultiHead}\left(Q_i^y, K_j^y, V_j^y\right)=\operatorname{Concat}\left(h_i^1, \ldots, h_i^M\right) W^O$
$W^O \in R^{d_h \times d_h}$ 是可训练的参数矩阵
$h_i$ 为单独的头向量
$C o n c a t$ 为合并多个数组

$h_i$ 的计算如下

$\begin{gathered} h_i^m=a_{i j} V_j+a_{i j}^{p d} * V_j^{p d}+a_{i j}^{d p} * V_j^{d p}+\sum_y \sum_j a_{i j}^y V_j^y \\ y \in\{p P, p D, d P, d D\}, \quad m \in\{1, \ldots, M\} \end{gathered}$

请注意，为了使得策略网络能够感知和学习-配对关系与优先约束，根据注意力类型将头添加到node embedding的不同部分。例如，从pickup node embedding到其他节点的注意力头只对pickup node有贡献，而添加到delivery node embedding的头为零。
注意力工作原理如下，

$\begin{aligned} h_i^{l^{\prime}} &=B N^l\left(h_i^{l-1}+\operatorname{MultiHead}_i^l\left(Q_i^y, K_j^y, V_j^y\right)\right) \\ h_i^l &=B N^l\left(h_i^{l^{\prime}}+F F^l\left(h_i^{l^{\prime}}\right)\right. \end{aligned}$

$h_i^l$ 为在 $l$ 层的node embedding，每层的参数是独立的。

每个多头注意力层和前馈层都由一个跳跃连接（skip-connection）和一个批量归一化层（BN）组成。

$h_i^N$ graph embedding的输入，计算自最后一层node embedding的均值。 $\bar{h}_i^N=\frac{1}{2 n+1} \sum_{i=0}^{2 n} h_i^N$

$h_i^N$ 和 $\bar{h}_i^N$ 都是译码器的输入。

（2）译码器

给定来自编码器的graph embedding和node embedding，解码器将生成一个概率向量，用于在每个解码步骤中选择一个节点。为实现这个，output embedding是需要的。

$context\ {h}^c$ 为output embedding，由graph embedding和在步骤t的最后一个node embedding组成。
$h^c=\operatorname{Concat}\left(\bar{h}^N, h_{\pi_{t-1}}^N\right)$

第一步，node embedding通常被替换为可训练的参数。

$glimpse\ {h}^g$ 用于聚合节点信息不同部分贡献
$h^g=\operatorname{MultiHead}\left(W_g^Q h^c, W_g^K h^N, W_g^V h^N\right)$
$W_g^Q, W_g^K \in R^{d_h \times d_k}, W_g^V \in R^{d_h \times d_v}$ 为可训练的参数矩阵

若已知 $q=W^Q h^g$ 和 $k_i=W^K h_i^N$ ，在步骤t时域所有节点的相似度函数（compatibility function）计算如下，

$\begin{gathered} \hat{h}^t=C \cdot \tanh \left(h^t\right) \\ h_i^t= \begin{cases}\frac{q^T k_i}{\sqrt{d_k}}, & \text { if } i \notin \pi_{t^{\prime}}, \forall t^{\prime}<t \\ -\infty, & \text { otherwise }\end{cases} \end{gathered}$
$C$ 设置为10，一边剪裁结果更好地搜索。

无效节点在每一步都被动态屏蔽以保证可行性。
最后，采用softmax函数计算概率向量。

$p\left(\pi_t \mid X, L_{t-1}\right)=\operatorname{softmax}\left(\hat{h^t}\right)$
$p_i^t$ 表示在步骤t时选择节点 $x_i$ 的概率。

这一过程反复进行明知道所有节点都被访问并且车辆返回到站点。
关于解码策略，我们可以贪婪地选择每一步概率最大的节点，我们也可以采用多个解检索最好的一个。

（3）训练算法

基于roll-out

在这里插入图片描述

策略梯度法：
（1）actor network：如 $p_\theta$ 通过在这些操作上生成概率向量来控制节点选择的操作，并根据概率进行采样以更好地探索操作空间

（2）self-critic network： $v_\phi$ ，与actor network相似结构的roll-out基准，通过选择具有最大概率消除方差的结点来计算给定初始状态下的奖励。

（3）强化学习算法在获得行动者网络的奖励R和批评家网络的基线奖励vφ(X)后，利用策略梯度法对两个网络的参数进行相应的更新。

（4）具体而言，在每一个场景，我们为每个实例构造一条路径，并在第12行计算针对该解决方案的奖励，在第16行更新actor network的参数。
此外，实例b的critic network vφ(Xb)的期望奖励从第13行策略的贪婪滚出中获得。
此外，根据第18行[8]中几个固定数量实例的配对t检验，当行动者网络的性能显著优于critic network时，将批评家网络的参数替换为actor network的参数。
通过更新这两个网络，策略pθ被训练为寻找更高质量的解。