CS224n-Lecture8-Machine Translation, Seq2Seq and Attention

轩瑕谢兰

于 2020-08-21 10:29:45 发布

阅读量442

点赞数 1

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/danengbinggan33/article/details/108141900

版权

本文介绍了机器翻译的历史演变，从基于规则到神经网络的Seq2Seq模型，再到注意力机制的引入。Seq2Seq模型在机器翻译、对话、代码生成等领域有广泛应用，但存在信息丢失的问题。注意力机制解决了这一问题，允许模型在解码过程中关注源序列的特定部分，显著提升了NMT性能并增加了可解释性。

摘要由CSDN通过智能技术生成

综述

1Introduce a new task: Machine Translation

介绍机器翻译任务。

2.Introduce a new neural architecture: sequence-to-sequence

介绍神经网络结构：序列到序列。该结构的一个主要用例就是机器翻译。

3.Introduce a new neural technique: attention

介绍神经网络技术：注意力机制。该技术主要用于改进序列到序列网络的效果。

第一部分机器翻译

机器翻译（MT）是将句子x从一种语言（源语言）转换为另一种语言（目标语言）的句子y的任务。

演变过程

1950年：主要通过规则，把俄文单词和英文单词进行匹配。

1990年-2010年：基于统计的机器翻译(SMT)。思想很简单，在给定句子x的前提下，使目标翻译P(y|x)最大时y的值。根据公式转换之后便变成了两部分模型，使P(x|y)最大的翻译模型和使P(y)最大语言模型。

其中a是对齐方式，即源句子x和目标句子y之间的词级对应。因为我们无法直接获取到x和y的对应数据，所以需要一个词对齐的任务，即引入a。

Alignment，对齐是翻译的句子对中特定单词之间的对应关系。

对齐其实也是非常复杂的任务，可能对齐是多对一，可能是多对多，甚至有些东西难以有对应内容。

所以，传统任务训练使P(x,a|y)最大化的任务包含了多个概率的训练，包括：

Probability of particular words aligning (also depends on position in sent) 特定单词对齐的概率（还取决于发送的位置）

Probability of particular words having particular fertility (number of corresponding words) 具有特定奇怪词的特定单词的概率（对应单词的数量）

etc. 等等

并且对齐单词a在数据中其实一般都不会被标识出来。

列举所有的y是不现实的，

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。