论文笔记《Neural Machine Translation by Jointly Learning to Align and Translate》

最新推荐文章于 2020-10-31 21:13:17 发布

韩明宇

最新推荐文章于 2020-10-31 21:13:17 发布

阅读量979

点赞数 2

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37098526/article/details/92844174

版权

本文介绍了RNNsearch模型，一种解决神经机器翻译中长句子表示问题的方法。该模型引入注意力机制，允许在解码过程中自适应选择输入句子的子集，提高了翻译质量和效率，尤其是在长句子上的表现。

摘要由CSDN通过智能技术生成

中文题名：基于联合学习对齐和翻译的神经机器翻译

目录

背景：神经机器翻译

编码器-解码器框架（基线）

编码器（基线）

解码器（基线）

存在的问题

学习对齐和翻译

RNNenc vs RNNsearch

RNNsearch的编码器

RNNsearch的解码器

注意力思想

注意力机制

RNNsearch模型的解码器的计算步骤

RNNsearch模型

实验设置和结果

评估标准——Bleu

实验结果分析

摘要

神经机器翻译的任务定义
传统神经机器翻译所用的编码器-解码器模型的缺陷
本文提出一种能够自动搜索原句中与预测目标词相关的神经机器翻译模型
所提出的模型的效果

背景：神经机器翻译

任务定义

该模型采用1到K编码的字向量的源语言句子作为输入： $x=(x_{1},...,x_{T_{x}}),x_{i}\in\mathbb{R}^{K_{x}}$

并输出由1到K编码的字向量的目标语言句子： $y=(y_{1},...,y_{T_{y}}),y_{i}\in\mathbb{R}^{K_{y}}$

任务目标：评估函数 $argmax_{y}p(y|x)$

编码器-解码器框架（基线）

模型名称：RNNenc

编码器（基线）

$x=(x_{1},...,x_{T_{x}})$ ：表示一个输入句子的序列

$h_{t}=f(x_{t},h_{t-1})$ ：表示编码器的隐层状态

$c=q(\left \{ h_{1},...,h_{T_{x}} \right \})$ ：表示由句子序列的隐层状态生成的上下文向量

编码器读取输入句子序列x，生成一个上下文向量c

解码器（基线）

$y=(y_{1},...,y_{T_{y}})$ ：表示一个生成句子的序列

$s_{t}=f(c,y_{t-1},s_{t-1})$ ：表示解码器的隐层状态

解码器是用来在给定上下文向量c和所有之前的预测词 $\left \{ y_{1},...,y_{{t}'-1} \right \}$ 时预测下一个词

最低0.47元/天解锁文章

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。