阅读笔记 - Pointer Network

最新推荐文章于 2024-04-10 11:25:49 发布

劉北习

最新推荐文章于 2024-04-10 11:25:49 发布

阅读量386

点赞数

分类专栏：论文阅读自然语言处理

本文链接：https://blog.csdn.net/anfanger_z/article/details/104432975

版权

自然语言处理同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

论文阅读

2 篇文章 0 订阅

订阅专栏

主要内容

论文内容

论文内容

原有模型的问题(Issues in Seq2Seq/RNN)

传统的Seq2Seq结构或是单RNN的结构在不少领域都取得了SOTA效果，但这些结构都有一个特性，就是输出的词典大小是我们预设好的。无法应对变长的词典。很多问题都会使用变长的词典，例如本文中提到的三个组合优化问题，均要求我们从给定的输入找到答案。而每一次输入的数据都是有变化的。
本文提出的结构能够有效解决这个问题。并且在遇到超过训练样本最大长度的新数据时，也具备良好的泛化能力。

模型架构(Architecture)

从架构上来看，模型与传统的Seq2Seq是一样的，唯一的区别在于Attention机制的应用。
原文用AddictiveAttention做例子，原本attention机制是对于encoder的每一个时间步计算一个权重。然后将每一步的隐状态做加权求和，然后与decoder的隐状态拼接，作为下一步decoder的输入。
而在本文中，attention机制中计算的权重作为“指针”使用，实际上也就是输出了一个关于encoder每一个位置的分布。然后根据分布直接从输入序列中拿对应的词汇作为输入。
原文中形式化的描述:
假设输入序列为 $P$ ， $v$ 为Addictive attention中对齐模型的隐状态，encoder的隐状态为 $e_1,e_2,e_3......e_n)$ ，decoder的隐状态为 $d_1,d_2,d_3......d_{m(p)})$
Addictive attention:

${u_j}^i = v^Ttanh(W_1e_j+W_2d_i)$ 其中 $j\in(1,2,3......n)$

$a_j = softmax({u_j}^i)$

${d_i}^{'}=\sum_{i\;=\;1}^na_ie_i$

ptr-net:

${u_j}^i = v^Ttanh(W_1e_j+W_2d_i)$ 其中 $j\in(1,2,3......n)$

$p(c_i\vert c_1,c_2,c_3......c_{i-1})\;=\;softmax(u^i)$

可以看到，条件概率用attention中的权重来表示。这也是ptr-net最大的特点。

模型解决的问题

原文中提到，这个模型可以用来求一些组合优化问题的近似解。训练过程使用了三种类型问题的样本。
以下问题的描述均来自百度。

凸包问题(convex hull problem)

凸包(convex hull):凸包是一个计算几何（图形学）中的概念。
在一个实数向量空间 $V$ 中，对于给定集合 $X$ ，所有包含 $X$ 的凸集的交集 $S$ 被称为 $X$ 的凸包。 $X$ 的凸包可以用 $X$ 内所有点( $x_1$ ，… $x_n$ )的凸组合来构造.
在二维欧几里得空间中，凸包可想象为一条刚好包著所有点的橡皮圈。
用不严谨的话来讲，给定二维平面上的点集，凸包就是将最外层的点连接起来构成的凸多边形，它能包含点集中所有的点。
在这里插入图片描述

德劳内三角剖分(Delaunay)

三角剖分的定义:假设 $V$ 是二维实数域上的有限点集，边 $e$ 是由点集中的点作为端点构成的封闭线段, $E$ 为 $e$ 的集合。那么该点集 $V$ 的一个三角剖分 $T$ =( $V$ , $E$ )是一个平面图 $G$ ，该平面图满足条件：
1.除了端点，平面图中的边不包含点集中的任何点。
2.没有相交边。
3.平面图中所有的面都是三角面，且所有三角面的合集是散点集 $V$ 的凸包。

Delaunay边:假设 $E$ 中的一条边 $e$ （两个端点为 $a$ , $b$ ） $e$ 若满足下列条件，则称之为Delaunay边：
存在一个圆经过 $a$ $b$ 两点，圆内(注意是圆内，圆上最多三点共圆)不含点集 $V$ 中任何其他的点，这一特性又称空圆特性。

Delaunay三角剖分:如果点集 $V$ 的一个三角剖分 $T$ 只包含Delaunay边，那么该三角剖分称为Delaunay三角剖分。
在这里插入图片描述

旅行推销员问题(Travelling Salesman Problem)

TSP:给定一个包含n个点的完全图，每条边都有一个长度，求总长度最短的且每个顶点仅经过一次的封闭回路。

在这里插入图片描述

训练过程

总体来说，就是将点集送至encoder，然后decoder输出指针，指向输入序列中的对应点。

有一些训练中的trick:
1、输入点按照顺时针方向输入。
2、在三角剖分问题中，每个三角形的顶点按照升序排列。

劉北习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
阅读笔记 - Pointer Network

主要内容论文内容原有模型的问题(Issues in Seq2Seq/RNN)模型架构(Architecture)训练样本的选择凸包问题(convex hull problem)德劳内三角剖分(Delaunay)旅行推销员问题(Travelling Salesman Problem)论文内容原有模型的问题(Issues in Seq2Seq/RNN)模型架构(Architecture)训练样...
复制链接

扫一扫