李宏毅2020机器学习深度学习：Pointer Network(阅读原论文后修订)

最新推荐文章于 2024-05-09 11:43:31 发布

梆子井欢喜坨

最新推荐文章于 2024-05-09 11:43:31 发布

阅读量561

点赞数 1

分类专栏： # 李宏毅深度学习2020 文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_39610915/article/details/115859552

版权

李宏毅深度学习2020 专栏收录该内容

14 篇文章 18 订阅

订阅专栏

Pointer Network是2015年由Google Brain的Oriol提出的。
原版论文提出这个模型，主要是为了解决，预测的输出类型可变的问题。

例如尝试训练一个神经网络计算凸包(Convex Hull)。
输入一个十个点（用x,y坐标表示）的序列，希望神经网络能输出包围剩下点的组成边界的点序列。
在这里插入图片描述
既然输入一个序列，输出一个序列。
考虑采用Seq2Seq的方式进行训练。

但是只使用原版Seq2Seq是做不到的。
这个问题的输入点数是不确定的，同时输出的字典大小等于输入序列的长度。
比如输入四个点，每次输出需要预测四个点中谁的概率最大。
如果下一条数据输入了五个点，这次训练中的每一次输出又需要预测五个点中谁的概率最大。
而原版Seq2Seq的Decoder中，输出节点数是无法调整的。

用attention进行改造，让NN动态决定输出的set的大小。
( $x_0$ , $y_0$ )代表END
在这里插入图片描述
不用 softmax 层，而将attention weight视为一个output的概率分布，用 argmax 筛选输出。
算出来输入序列中哪一个的attention值最大，decoder就用这个输入元素作为输出。

训练阶段怎么办呢？
根据label, minimize 交叉熵损失函数。
在这里插入图片描述
Decoder的输入，仅仅是某个词的词向量，而不是包含了整个context信息的向量。
Decoder没有输出，只是通过输入产生key值，送入Encoder做attention运算。
现在输出由Encoder完成。

Point Network适合用在Summarization任务中
从input document中取出一些重要的词(如原文中的人名地名)，接起来得到summary。
在这里插入图片描述
原论文:Get To The Point: Summarization with Pointer-Generator Networks
上图中的 $p_{gen}$ 会决定最终的向量多少由左侧Point Network和右侧传统方法的输出组成。
左边会直接根据上一个词与输入的attention，输出一个summary word.
由图可见，“2-0”这个词是词表中没有的，但Point Network仍然输出了这个词的概率。

还可以应用在对话机器翻译和机器人（chat-bot）中
在这里插入图片描述
适用于要把人名直接取过来的情况。

参考文献
[1] Vinyals O , Fortunato M , Jaitly N . Pointer Networks[J]. Computer Science, 2015, 28.
[2] See A , Liu P J , CD Manning. Get To The Point: Summarization with Pointer-Generator Networks[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017.

梆子井欢喜坨

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
李宏毅2020机器学习深度学习：Pointer Network(阅读原论文后修订)

例如输入一个十个点（用x,y坐标表示）的序列希望神经网络能输出包围剩下点的，组成边界的点序列。考虑采用Encoder-Decoder的结构进行这样的训练结果是不work的。这个问题的输入点数是不确定的，而Decoder部分输出节点数无法调整。用attention进行改造，让NN动态决定输出的set的大小。不用 softmax 层，而使用 argmax 筛选输出。(x0x_0x0,y0y_0y0)代表ENDPoint Network适合用在Summarization任务中从in
复制链接

扫一扫

专栏目录