【cs224n-7】Machine Translation, Seq2Seq and Attention

本文详细介绍了机器翻译的历史,从早期基于规则的方法到统计机器翻译(SMT),再到神经机器翻译(NMT)的Seq2Seq模型。重点讲解了Seq2Seq架构中的编码器和解码器,以及在NMT中常见的解码策略,如贪心搜索、 beam search。同时,讨论了机器翻译系统的评估方法,包括BLEU评分。最后,探讨了注意力机制在NMT中的应用,如何使模型关注输入序列的相关部分以提高翻译质量。
摘要由CSDN通过智能技术生成

一.Machine Translation

    机器翻译(MT)是将一个句子 x 从一种语言( 源语言 )转换为另一种语言( 目标语言 )的句子 y 的任务。

    

1.1 1950s: Early Machine Translation

     机器翻译研究始于20世纪50年代初。

  • 俄语 →英语(冷战的推动)
  • 系统主要是基于规则的,使用双语词典来讲俄语单词映射为对应的英语部分

1.2 1990s-2010s: Statistical Machine Translation(SMT)

  • 核心想法:从数据中学习概率模型。

         假设我们正在翻译法语 →英语。我们想要找到最好的英语句子 y ,给定法语句子 x

                       argmaxyP(y|x)

          使用Bayes规则将其分解为两个组件从而分别学习

                  argmaxyP(x|y)P(y)

  • P(x|y)--翻译模型
    • 分析单词和短语应该如何翻译(逼真)
    • 从并行数据中学习
  • P(y)--语言模型

    • 模型如何写出好英语(流利)
    • 从单语数据中学习
  • SMT是一个巨大的研究领域

          一个好的SMT系统,需要针对特定的语音现象设计对应的功能特性、需要编译和为维护额外的资源(比如等价短语表)、需要大量的人力来维护、针对不同的语言都需要重复操作。 

        SMT可用于构建基于单词或短语的翻译系统。正如你所想到的,一个简单的的基于单词的翻译系统将完全不能捕获语言之间的排序差异(例如,否定词移动,句子中的主语和动词的位置等)。

         基于短语的翻译系统可以根据短语序列考虑输入和输出,相比比基于词的系统可以处理更复杂的语法。然而,在基于短语的翻译系统仍然难以捕获长距离的信息。

 1.3 Neural Machine Translation (NMT)  

     神经机器翻译是利用单个神经网络进行机器翻译的一种方法,神经网络架构称为sequence-to-sequence (又名seq2seq),它包含两个RNNs。

    

  • 编码器RNN生成源语句的编码。源语句的编码为解码器RNN提供初始隐藏状态
  • 解码器RNN是一种以编码为条件生成目标句的语言模型
  • Seq2Seq 模型通常被称为“编码器-解码器模型”。
  • NMT直接计算 P(y|x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值