Datawhale AI 夏令营之NLP(二)——Transformer解决机器翻译

一、基础概念

1.Seq2Seq模型

(1)Seq2Seq(序列到序列)模型,是一种处理序列数据的深度学习模型,尤其是在自然语言处理(NLP)领域中非常常见。这种模型通常用于机器翻译、文本摘要、问答系统和聊天机器人等任务。

(2)Seq2Seq模型的基本组成部分:

  1. 编码器(Encoder)
    编码器的目的是将输入序列(如一句话或一段文本)转换成一个固定大小的内部表示,这个表示捕捉了输入序列的主要信息。
    编码器通常由循环神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)组成。
  2. 解码器(Decoder)
    解码器的任务是使用编码器生成的内部表示来生成输出序列。在机器翻译中,输出序列通常是目标语言的文本。 解码器也是基于RNN、LSTM或GRU,并且通常与编码器结构相似。
  3. 注意力机制(Attention Mechanism)
    注意力机制允许解码器在生成输出序列的每一步时,能够“关注”输入序列中的不同部分。
    这有助于模型更好地理解输入序列的上下文,并生成更准确的输出。

2.Transformer模型

2.1Transformer核心特点

  1. 自注意力机制(Self-Attention)
    允许模型在处理序列的每个元素时,考虑序列中的所有位置,从而捕捉序列内部的依赖关系。
  2. 编码器-解码器架构(Encoder-Decoder Architecture):
    编码器将输入序列转换为连续表示,解码器则根据编码器的输出和之前的输出生成目标序列。
  3. 位置编码(Positional Encoding)
    由于Transformer不使用循环网络结构,为了使模型能够理解序列的顺序,引入了位置编码。
  4. 多头注意力(Multi-Head Attention)
    通过并行处理多个注意力机制,模型能够同时从不同的表示子空间捕捉信息。
  5. 残差连接(Residual Connections)
    在每个子层的输出中加入输入,有助于缓解深层网络训练中的梯度消失问题。
  6. 层归一化(Layer Normalization)
    在每个子层的输出中应用归一化,有助于稳定训练过程。

2.2. 关于Transformer你必须要知道的

(1)Transformer的Encoder模块
Transformer的Encoder模块是由一系列相同的层堆叠而成的,每一层都有两个主要的子模块:多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Position-wise Feed-Forward Networks)。此外,每个子模块周围都有一个残差连接,并且每个子模块的输出都会经过层归一化(Layer Normalization)。
在这里插入图片描述
下面是对这些组件的详细说明:

  1. 多头自注意力机制(Multi-Head Self-Attention)
    这个模块可以使网络在进行预测时考虑输入序列的不同位置,对不同位置的输入分配不同的注意力。多头注意力机制意味着模型有多组不同的注意力参数,每组都会输出一个注意力权重,这些注意力权重会被合并成最终的注意力输出。

  2. 残差连接(Residual Connection)
    残差连接帮助避免了深度神经网络中的梯度消失问题。在Transformer中,每个子模块的输出是 LayerNorm(x + SubLayer(x)),其中SubLayer(x)是子模块自身(比如多头自注意力或前馈神经网络)的输出。

  3. 层归一化(Layer Normalization)
    层归一化是在模型的训练过程中加速收敛的一种技术,它对层的输入进行归一化处理,使得其均值为0,方差为1。

  4. 前馈神经网络(Position-wise Feed-Forward Networks)
    这个模块由两个线性变换组成,中间夹有一个ReLU激活函数。它对每个位置的词向量独立地进行变换。

  5. 位置编码(Position Encoding)
    由于Transformer模型没有循环或卷积操作,为了让模型能够利用词的顺序信息,需要在输入嵌入层中加入位置编码。位置编码和词嵌入相加后输入到Encoder模块。

整体来看,Transformer的Encoder模块将输入序列转换为一系列连续表示,这些表示在后续的Decoder模块中用于生成输出序列。每一层的Encoder都对输入序列的所有位置同时进行操作,而不是像RNN那样逐个位置处理,这是Transformer模型高效并行处理的关键。

(2)为什么transformer块使用LayerNorm(层归一化)而不是BatchNorm(批量归一化)?
LayerNorm对每个样本做Normalization
BatchNorm对每个特征做Normalization
Normalization:归一化,均值变0方差为1

(3)Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?
Decoder阶段的多头自注意力(Masked Multi-Head Attention)和Encoder的多头自注意力(Multi-Head Attention)在计算方式上非常相似,但存在关键的区别,主要体现在对序列中位置的处理上。

  • Encoder的多头自注意力
    在Encoder的多头自注意力中,每个位置都可以自由地注意序列中的所有其他位置。这意味着计算注意力分数时,并没有位置上的限制。这种设置是因为在编码阶段,我们假定有完整的输入序列,并且每个词都可以依赖于上下文中的任何其他词来获得其表示。
  • Decoder的多头自注意力(带掩码)
    在Decoder的多头自注意力中,为了保持自回归属性(即生成当前词只依赖于前面的词),我们需要确保在计算注意力分数时,每个位置只能注意到它前面的位置。为了实现这一点,我们使用了序列掩码(sequence mask)的技术。

二、上分技巧

  • 加入术语词典,这是在此竞赛中比较有效的方法,加入术语词典的方法策略也有很多,如:

    • 在模型生成的翻译输出中替换术语,这是最简单的方法
    • 整合到数据预处理流程,确保它们在翻译中保持一致
    • 在模型内部动态地调整术语的嵌入,这涉及到在模型中加入一个额外的层,该层负责查找术语词典中的术语,并为其生成专门的嵌入向量,然后将这些向量与常规的词嵌入结合使用
  • 数据扩增:

    • 回译(back-translation):将源语言文本先翻译成目标语言,再将目标语言文本翻译回源语言,生成的新文本作为额外的训练数据
    • 同义词替换:随机选择句子中的词,并用其同义词替换
    • 使用句法分析和语义解析技术重新表述句子,保持原意不变
    • 将文本翻译成多种语言后再翻译回原语言,以获得多样化翻译
  • 采用更精细的学习率调度策略:

    • Noam Scheduler:结合了warmup(预热)阶段和衰减阶段
    • Step Decay:最简单的一种学习率衰减策略,每隔一定数量的epoch,学习率按固定比例衰减
    • Cosine Annealing:学习率随周期性变化,通常从初始值下降到接近零,然后再逐渐上升
  • 集成学习:训练多个不同初始化或架构的模型,并使用集成方法(如投票或平均)来产生最终翻译。这可以减少单一模型的过拟合风险,提高翻译的稳定性。

总结:
之前看过很多次transformer的理论知识都没学明白,包括它的框架图也不是很懂,这次终于算是看懂了,由一个编码器和解码器组成,编码器里面有多头注意力和前馈神经网络,分别都有残差连接,这样的n个transformer block就组成了编码器。解码器是在编码器的基础上多了带掩码的多头自注意力。

附:
Datawhale AI夏令营-Task3:基于Transformer解决机器翻译任务
Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
transformer模型— 20道面试题自我检测

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值