机器翻译

最新推荐文章于 2024-06-26 15:56:22 发布

*Major*-莙工科技有限公司

最新推荐文章于 2024-06-26 15:56:22 发布

阅读量3k

点赞数 1

本文链接：https://blog.csdn.net/qq_41375318/article/details/103210154

版权

机器翻译

链接: 数据集提取码: 6cgu

《Neural Machine Translation by Jointly Learning to Align and Translate》
—基于联合学习对齐和翻译的神经机器翻译
作者：Dzmitry Bahdanau ，KyungHyun Cho,Yoshua Bengio
单位：不来梅雅克布大学，蒙特利大学
发表会议：ICLR 2015

补充：最早将注意力机制引入机器翻译的论文

1.一论文导读
2.二论文精读
3.三代码实现
4.四问题思索

一论文导读

1.机器翻译简介
2.神经机器翻译相关技术
3.前期知识

1.机器翻译简介

机器翻译，又称自动翻译，是利用计算机将一种自然语言（源程序）转换为另一种自然语言（目标语言）的过程
它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。
同时具有重要的实用价值。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流方面起到越来越重要的作用。

机器翻译的出现早于人工智能概念的提出，有着漫长的发展过程（滑稽，对于计算机历史）
大致分为三个阶段
1980：基于规则的翻译
1990：基于统计的翻译
2013：基于神经网络的翻译

一基于规则的机器翻译
基于规则的机器翻译，是最古老也是见效最快的一种翻译方式。
根据翻译的方式可以分为：

直接基于词的翻译
结构转换的翻译
中间语翻译

大致流程：
输入–》词性分析–》词典查询–》语序调整–》输出

二基于统计的方法

基本思想：通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。
核心问题：为翻译过程建立概率模型
大致流程：输入–》基于词的翻译–》查询语料库–》统计概率–》输出

在这里插入图片描述
由于现实中句子的多变性，引入了隐变量

隐变量：生产过程中不可观测的随机变量
隐变量对数线性模型：在隐式语言结构上设计特征
关键问题：如何设置特征函数

在这里插入图片描述
三基于神经网络的机器翻译

基于神经网络的机器翻译：通过学习大量成对的语料让神经网络自己学习语言的特征，找到输入和输出之间的关系。
核心思想：端到端
2014年，Kyunghyun Cho 和Sutskever先后提出一种端到端的模型，直接对输入和输出建立联系，前者讲其模型命名为Encoder-Decoder模型，后者将其命名为Sequence-to-Sequence

在这里插入图片描述

2.神经机器翻译相关技术

基于神经网络的机器翻译：

基本思想：利用神经网络实现自然语言的映射
核心问题：条件概率建模
yn:当前目标语言词
x:源语言句子
y<n：已经生成的目标语言句子

在这里插入图片描述
没有引入隐变量z,而是马尔可夫分解，变成每个词的生成，N表示目标语言的长度，yn代表第n个词，x代表句子

如何对条件概率机械能建模？
在这里插入图片描述
句子的向量表示：
利用RNN计算句子的向量表示
（深度学习的革命变化之一就是改变了信息的表达方式，用的是连续的数字，向量等表达信息，区别于传统的离散表达）

在这里插入图片描述
编码器-解码器框架：
利用RNN实现源语言的编码和目标语言的解码（带来了一种信息传递的新方式）

优点：利用长短时记忆处理长距离依赖
缺点：任意长度的句子都编码为固定维度的向量

如何解决这个问题呢？总而引入了一种具有革命性的思想：注意力机制
引入注意力机制：
在这里插入图片描述

3.前期知识
１.概论论
２.RNN
３.机器翻译的概念
４.注意力机制的思想，注意力机制的分类和实现方式

二论文精读

1.论文整体框架
2.传统模型讲解
3.小结
4.RNNsearch模型
5.注意力机制其他应用
6.实验和结果
7.讨论和总结

1.论文整体框架

0.摘要
在这里插入图片描述
1.介绍
2.背景：神经机器翻译
3.学习对齐和翻译模型
4.实验设置
5.实验结果
6.相关工作
7.结论

2.传统模型讲解

一任务定义：

该模型采用1到k编码的字向量的源语言句子作为输入：
并输出由1到k编码的字向量的目标语言句子
任务目标：评估函数：

具体实例如下：

二编码器-解码器框架
神经网络的作用：直接学习条件分布（端到端）
通过大量学习成对语料，让神经网络自己学到特征，找到输入和输出之间的关系

在这里插入图片描述
这种模型思想的论文来源：《Learning phrase representations using RNN encoder-decoder for statistical machine translation》

—学习使用RNN编码器-解码器进行统计机器翻译的短语表示
模型名称：RNNenc

本文的模型就是以RNNenc为基线进行改进的。

编码器

在这里插入图片描述

X:表示一个输入的句子的序列
ht:表示t时间生成句子的隐藏状态
f:表示非线性函数

在这里插入图片描述
c:表示从句子序列中生成的上下文向量
q:表示非线性函数
大致结构如下图：

解码器：

y：表示生成一个句子的序列

St表示循环神经网络的隐层状态

h:表示编码器的隐层状态
s:表示解码器的隐层状态
j:表示编码器的输入
i:表示解码器的输入

整体框架结构图：
在这里插入图片描述

在这里插入图片描述
RNNenc模型效果：

从上右图中可以看出深度学习较好解决了语法不同，意思相同的问题

在机器翻译领域，使用Seq2Seq模型在英法翻译任务中表现接近技术的最先进水平，比传统的词袋模型效果要好。

RNNenc模型存在问题

必须记住整个句子序列的语义信息
把无论长度多长的句子都编码成固定向量，这样限制了翻译过程中长句子的表示
与人类翻译时的习惯不同，人们不会在生成目标语言翻译时关注源语言句子的每个单词（不“信达雅”）

下图展示了长句上的不足
在这里插入图片描述
基于以上缺点提出了本文的模型

提出一种新的神经机器翻译模型RNNsearch模型
编码器：采用双向循环神经网络：
隐藏状态同时对当前单词前面和后面的信息编码
解码器：提出一种扩展（注意力）模型
注意力机制：对输入的隐藏状态求权重

在这里插入图片描述
（补充：我觉得注意力机制的本质就是提高某一部分（你想要的部分）权重，当然这个大家都理解，难点在于怎么做到的，其实想理解怎么做到的，一般没什么思绪，其实你可以先把重心点放在模型的权重是如何产生的上面）

3.小结

摘要：论文高度概括，包含作者研究思路
介绍：简述论文背景，定义问题，发现现有解决问题方法弊端，提出改进模型，展示改进模型的实验效果
神经机器翻译编码器-解码器框架，基于该框架的基线模型RNNenc,各部分组成及原理

4.RNNsearch模型

一传统模型 VS 改进模型

RNNenc

将整个输入语句编码成一个固定长度的向量
使用单向循环神经网络RNN

RNNsearch

将输入的句子编码成变长向量序列
在编码翻译时，自适应的选择这些向量的子集
使用双向循环神经网络（Bi-RNN）

在这里插入图片描述
RNNsearch模型编码器：

前向RNN：

输入：在这里插入图片描述
输出：

后向RNN

输入：在这里插入图片描述
输出：

连接

模块结构图：

RNNsearch模型解码器
目标端词yi的条件概率：
Si表示i时间的隐层状态：

与RNNenc模型不同点：
c–>ci

注意力思想：
思想：集中关注上下文
就是只关注相关的上下文，
is关注dog,因为dog时动词
chasing关注is和dog，因为动物才有chase的现在进行时
注意力机制的思想在本质上改变了信息传递的方式
在之前任何一个单词的出现都依赖前后有限个数词的影响，靠的越近影响越大，这显然是不科学的，而注意力机制改变了这一现状，它赋予每个单词同等的机会，当然也有一定的相关性。
在这里插入图片描述
注意力机制的计算公式