【论文阅读】注意力机制与二维 TSP 问题

abcdhhhh_

已于 2023-03-31 20:26:25 修改

阅读量1.2k

点赞数 2

分类专栏：草稿文章标签：论文阅读深度学习人工智能

于 2023-03-11 15:37:31 首次发布

本文链接：https://blog.csdn.net/qq_47903865/article/details/129462940

版权

草稿专栏收录该内容

8 篇文章 0 订阅

订阅专栏

前置知识

注意力机制

见这篇

二维 TSP 问题

给定二维平面上 $n$ 个点的坐标 $S=\{x_i\}_{i=1}^n$ ，其中 $x_i\in [0,1]^2$ ，要找到一个 $1\sim n$ 的排列 $\pi$ ，使得目标函数
$L(\pi|s)=\Vert x_{\pi_1}-x_{\pi_n} \Vert_2+\sum_{i=1}^{n-1}\Vert x_{\pi_{i}}-x_{\pi_{i+1}}\Vert_2$
尽可能小。

Pointer Networks

论文链接

指定 $\pi_1=1$ ，然后依次预测 $\pi_2,\pi_3,...,\pi_n$ 。

预测方式利用了注意力机制（加性模型）：
$u_j^i=v^T\tanh(W_1e_j+W_2d_i)$
其中 $v,W_1,W_2$ 是可学习的参数， $e_j$ 是（节点 $j$ 的）encoder 隐状态， $d_i$ 是（已选 $i - 1$ 个点的图的） decoder 隐状态。然后，直接将 softmax 后的 $u^i$ 作为输出：
$P(\pi_i|\pi_{1:i-1},\mathcal{P})=\text{softmax}(u^i)$

encoder 和 decoder 使用单层 LSTM 实现（隐藏层维度 256 或 512）。
训练使用 SGD（lr=1.0, batch_size=128，权重取值 [-0.08, 0.08]，L2 梯度裁剪阈值 2.0）。
训练数据量 1M。

网络结构

效果如下：
训练结果

由于是监督学习，只用了 $n\in [5,20]$ 的训练集，方便获取 label

传统的 RNN 的输出是固定词汇表上的分布，因此不能应对 $n$ 比训练集大的情况。而 Pointer Networks 的输出是输入序列上的分布，因此可以应对任意大小的 $n$ 。

Neural Combinatorial Optimization with Reinforcement Learning

论文链接

引入强化学习，学习策略函数 $p_{\theta}(\pi|s)=\prod_{t=1}^np_{\theta}(\pi_t|s,\pi_{1:t-1})$ 。

encoder 和 decoder 与 Pointer Networks 相同。

训练使用强化学习（REINFORCE+baseline）：

$\nabla_{\theta}J(\theta|s)=E_{p_\theta(\pi|s)}[(L(\pi)-b(s))\nabla_{\theta} \log p_{\theta}(\pi|s)]$

其中 $b (s)$ 使用 critic network 近似 $L(\pi|s)$ ，结构包括 1 个 LSTM encoder，1 个 LSTM 处理块和 2 层带 ReLU 的 MLP decoder。

求解时，使用 active search 方法，不断进行采样-更新答案-更新参数的过程，baseline 改为指数滑动平均（无需求导，更简单）

结果如下：

在这里插入图片描述

Attention, Learn to Solve Routing Problems!

论文链接

encoder 和 decoder 参考了 Transformer 的结构。

encoder 部分：

共有 $N$ 层，记 $h_i^{(l)}$ 为节点 $i$ 在第 $l$ 层的编码。

$h_i^{(0)}=W^xx_i+b^x$
$\hat h_i^{(l)}=BN^l(h_i^{(l-1)}+MHA_i^l(h_{1:n}^{(l-1)}))$
$h_i^{(l)}=BN^l(\hat h_i^{(l)}+FF^l(\hat h_i^{(l)}))$
$\bar h^{(N)}=\frac{1}{n}\sum_{i=1}^nh_i^{(N)}$

$W^x, b^x$ 是可学习的参数
$h_i^{(l)}$ 维度 $d_h=128$
MHA 层 head 数 $M = 8$
FF 包括一个 $512$ 维隐藏层+ReLU

在这里插入图片描述
decoder 部分：

令 $h_{(c)}^{(N)}$ 为当前时刻的上下文特征

$h_{(c)}^{(N)}=\begin{cases}[\bar h^{(N)},h_{\pi_{t-1}}^{(N)},h_{\pi_1}^{(N)}] & t>1\\ [\bar h^{(N)},v^l,v^f] & t=1\end{cases}$

其中 $v^l,v^f\in \R^{d_h}$ 是可学习的参数

然后利用注意力机制（缩放点积模型，再用 tanh 截断）

$q_{(c)}=W^Qh_{(c)}^{(N)}$
$k_i=W^Kh_i^{(N)}$
$v_i=W^Vh_i^{(N)}$
$u_{(c)j}=\begin{cases}C\tanh(\frac{q_{(c)}^Tk_j}{\sqrt{d_k}})&j\notin \pi_{1:t-1}\\-\infty & otherwise\end{cases}$
$p_{\theta}(\pi_t|s,\pi_{1:t-1})=\text{softmax}(u_{(c)})$