【论文笔记】Pointer Network

最新推荐文章于 2024-07-08 21:25:17 发布

我从崖边跌落

最新推荐文章于 2024-07-08 21:25:17 发布

阅读量9.6k

点赞数 3

分类专栏：神经网络论文笔记文章标签：神经网络注意力机制 attention seq-to-seq

本文链接：https://blog.csdn.net/qq_20135597/article/details/83586694

版权

指针网络（Ptr-Nets）是一种新型神经网络结构，旨在处理输出序列长度可变的问题。该模型结合了序列到序列学习和注意力机制，使用注意力作为指针来选择输入序列的元素作为输出，从而解决了传统方法中固定输出字典大小的限制。Ptr-Nets在几何问题、Delaunay三角剖分和旅行商问题等组合优化问题上表现出良好的性能，展示了数据驱动方法解决复杂计算问题的潜力。

摘要由CSDN通过智能技术生成

Pointer Network

Abstract 我们引入了一种新的神经网络结构来学习输出序列的条件概率，其中的元素是与输入序列中的位置对应的离散序列。这类问题不能通过现在的序列对序列和NTM（Neural Turing Mechines）解决，因为在每个步骤的输出的目标数量取决于输入的长度，这是可变的。诸如排列可变长度序列和各种组合优化问题的问题都属于这个类型。我们的模型采用最近提出的神经注意机制解决了可变大小输出字典的问题。它不同于前面提出的，不是使用注意力机制/将编码器的隐层单元混合在每个解码阶段的上下文向量中，而使用注意力机制作为指针来选择输入序列的一个成员来作为输出序列。我们把这种体系结构叫做指针网络。Ptr-Nets不仅改进了序列到序列（seq-to-seq）的输入注意力机制，而且允许我们将模型泛化去处理可变字典。

1 Introduction

RNN用于序列上的函数学习已经有30年的历史。然而，它们的结构限制了它们用固定的帧频作为输入输出。最近引入了一种序列对序列模式（seq-to-seq）[1] 消除了这些约束：它使用一个RNN将输入映射成为一个嵌入（embedding），用另一个RNN将这个嵌入（embedding）映射为输出。Bahdanau使用了基于文本的注意力机制，通过从输入中产生额外的上线文信息来增强解码器。这些发展使得将RNN应用在新的领域成为可能，实现了自然语言处理的核心问题，诸如翻译、分析，图像和视频字幕，甚至是学会执行小程序。