漫谈四种神经网络序列解码模型

机器翻译是目前NLP和deep learning结合的研究热点以及未来的研究发展方向,这篇文章转载介绍了基于RNN(recurrent neural network)的四种解码序列模型,

模型背景介绍:

1.基于RNN的序列化编码,hidden layer序列编码生成的编码向量是整个序列隐层编码进行求和平均的方式得到序列的编码向量,

优点:该模型可以做的事情是主题分类、情感检测等等分类任务,通过在编码向量上加softmax分类器就可以实现。

缺点:对于机器翻译和语音识别等序列化的问题则需要进行序列化解码。

2.基于RNN最简单的解码模式则是编码向量生成同上,在解码的输入特征端是通过将编码端每时刻得到的编码向量作为解码模型的输入特征

优点:在解码端引入了时序的概念,可以实现机器翻译等序列化的任务

基于RNN模型扩展解码端得到四种序列解码模型,依据解码能力的强弱分为四种:
以学习和闭卷考试为例,输入文本->课本,编码向量->课堂笔记,解码隐层->学生的大脑,解码文本(输出)->考试试卷写的答案

一、普通作弊型(decoder1)

脑子还可以,只需要看课堂笔记就可以答题

二、学霸型(decoder2)

学习刚刚的,最强大脑,可以记住课堂笔记,不需要看笔记,答题时只需要回顾一下前面写过什么就可以给出答案


三、学弱型(decoder3)

学弱哈,脑子不好使,记不住东西,连自己上一时刻写在答卷上的文字都记不住,需要翻看笔记并且回顾自己上一时刻写在答卷上的答案

四、学渣渣型(decoder4)
学习太差啦,不只需要看笔记和回顾自己上一时刻答卷上的答案,还需要老师在课本上画出重点才能整理出自己的课题笔记(注意力机制Attention)
除了学霸模型,其他模型在答题的时候翻看课堂笔记(很多文献中叫这种解码模型结构为peek(偷看),是不是很像在作弊?),而且学渣渣还去找过老师给画过重点,有了清楚的重点之后就不用翻书偷看了,瞄一眼就可以了,文献中叫glimpse(一瞥),是不是很像?呵呵

训练结果:
第一种解码模型为 普通作弊,第二种解码模型为 学霸模式,第三种解码模型为 学弱作弊,第四种解码模型为 学渣作弊。可以看到在IQ值(解码模型的神经网络结构)相同的情况下,学渣作弊模式答题(训练收敛速度)更快,而学霸模式答题最慢。

文章转载自:



展开阅读全文

没有更多推荐了,返回首页