CS224n-Lecture8-Machine Translation, Seq2Seq and Attention

本文介绍了机器翻译的历史演变,从基于规则到神经网络的Seq2Seq模型,再到注意力机制的引入。Seq2Seq模型在机器翻译、对话、代码生成等领域有广泛应用,但存在信息丢失的问题。注意力机制解决了这一问题,允许模型在解码过程中关注源序列的特定部分,显著提升了NMT性能并增加了可解释性。
摘要由CSDN通过智能技术生成

综述

1Introduce a new task: Machine Translation

介绍机器翻译任务。

2.Introduce a new neural architecture: sequence-to-sequence

介绍神经网络结构:序列到序列。该结构的一个主要用例就是机器翻译。

3.Introduce a new neural technique: attention

介绍神经网络技术:注意力机制。该技术主要用于改进序列到序列网络的效果。

 

 

第一部分 机器翻译

机器翻译(MT)是将句子x从一种语言(源语言)转换为另一种语言(目标语言)的句子y的任务。

演变过程

1950年:主要通过规则,把俄文单词和英文单词进行匹配。

1990年-2010年:基于统计的机器翻译(SMT)。思想很简单,在给定句子x的前提下,使目标翻译P(y|x)最大时y的值。根据公式转换之后便变成了两部分模型,使P(x|y)最大的翻译模型和使P(y)最大语言模型。

 

其中a是对齐方式,即源句子x和目标句子y之间的词级对应。因为我们无法直接获取到x和y的对应数据,所以需要一个词对齐的任务,即引入a。

Alignment,对齐是翻译的句子对中特定单词之间的对应关系。

 

 

对齐其实也是非常复杂的任务,可能对齐是多对一,可能是多对多,甚至有些东西难以有对应内容。

 

 

 

 

所以,传统任务训练使P(x,a|y)最大化的任务包含了多个概率的训练,包括:

Probability of particular words aligning (also depends on position in sent) 特定单词对齐的概率(还取决于发送的位置)

Probability of particular words having particular fertility (number of corresponding words) 具有特定奇怪词的特定单词的概率(对应单词的数量)

etc. 等等

并且对齐单词a在数据中其实一般都不会被标识出来。

 

列举所有的y是不现实的,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值