dataewhale夏令营：从baseline代码详解入门深度学习：基于Transformer的机器翻译

最新推荐文章于 2024-10-09 21:39:17 发布

lc0406

最新推荐文章于 2024-10-09 21:39:17 发布

阅读量784

点赞数 17

文章标签：深度学习 transformer 机器翻译

本文链接：https://blog.csdn.net/lc0406/article/details/140577406

版权

# 从baseline代码详解入门深度学习：基于Transformer的机器翻译

在深入探索深度学习的道路上，理解并应用Transformer模型是解锁新技能的关键一步。本笔记将带领大家详细了解Transformer模型的架构与实现，特别是其在机器翻译任务中的应用。我们将探讨位置编码、多头注意力机制、残差连接以及层归一化等核心组件，并通过实例展示如何将这些理论应用于实际问题中。

## 1. Transformer模型简介

Transformer模型首次被提出是在2017年，由Google的研究人员发表的论文《Attention Is All You Need》中。该模型彻底摒弃了传统的循环网络结构，完全依赖于注意力机制来捕捉序列之间的全局依赖关系。这一创新使得模型不仅能够更高效地处理序列数据，同时也提高了模型处理长距离依赖的能力。

## 2. Transformer模型的核心组件

### 2.1 位置编码

由于Transformer模型完全基于注意力机制，它需要一个方式来识别单词在序列中的位置。这就是位置编码的作用，通过为每个单词添加一个表示其位置的向量来实现。这个位置编码是通过不同频率的正余弦函数计算得到的，可以和词嵌入直接相加，从而保留序列中单词的顺序信息。

### 2.2 多头注意力机制

多头注意力机制是Transformer模型的核心。它将输入序列的每个单词转化为查询（Query）、键（Key）和值（Value），通过计算它们的点积并经过Softmax函数得到权重，最终加权求和获得输出。这一机制允许模型同时从不同的表示子空间并行学习信息，增强模型对复杂语义关系的捕捉能力。

### 2.3 前馈网络

每个Transformer块还包含一个前馈网络，它对所有位置进行相同的操作，并且是两层全连接的网络，中间有一个ReLU激活函数。这个前馈网络为每个位置生成一个新的表示，增强了模型的非线性变换能力。

### 2.4 残差连接与层归一化

为了解决深度网络中的梯度消失问题，Transformer模型采用了残差连接。这意味着每个层的输出是该层的输入加上该层的输出。此外，层归一化技术也被用来保证每层的输入和输出的尺度保持一致，从而加快训练速度并提高模型性能。

## 3. 机器翻译中的应用

在机器翻译任务中，Transformer模型由编码器和解码器组成。源语言文本首先由编码器处理，然后解码器基于编码器的输出生成目标语言文本。这一过程中，编码器负责理解源语言文本的语境，而解码器则负责生成准确反映这些语境的目标语言文本。

其他上分技巧

最简单的就是调参，将 epochs 调大一点，使用全部训练集，以及调整模型的参数，如head、layers等。如果数据量允许，增加模型的深度（更多的编码器/解码器层）或宽度（更大的隐藏层尺寸），这通常可以提高模型的表达能力和翻译质量，尤其是在处理复杂或专业内容时。
加入术语词典，这是在此竞赛中比较有效的方法，加入术语词典的方法策略也有很多，如：
- 在模型生成的翻译输出中替换术语，这是最简单的方法
- 整合到数据预处理流程，确保它们在翻译中保持一致
- 在模型内部动态地调整术语的嵌入，这涉及到在模型中加入一个额外的层，该层负责查找术语词典中的术语，并为其生成专门的嵌入向量，然后将这些向量与常规的词嵌入结合使用
认真做数据清洗，我们在 Task2 已经提到过当前训练集存在脏数据的问题，会影响我们的模型训练
数据扩增：
- 回译（back-translation）：将源语言文本先翻译成目标语言，再将目标语言文本翻译回源语言，生成的新文本作为额外的训练数据
- 同义词替换：随机选择句子中的词，并用其同义词替换
- 使用句法分析和语义解析技术重新表述句子，保持原意不变
- 将文本翻译成多种语言后再翻译回原语言，以获得多样化翻译
采用更精细的学习率调度策略（baseline我们使用的是固定学习率）：
- Noam Scheduler：结合了warmup（预热）阶段和衰减阶段
- Step Decay：最简单的一种学习率衰减策略，每隔一定数量的epoch，学习率按固定比例衰减
- Cosine Annealing：学习率随周期性变化，通常从初始值下降到接近零，然后再逐渐上升
自己训练一个小的预训练模型，尽量选择 1B 以下小模型，对 GPU 资源要求比较高，仅仅使用魔搭平台可能就满足不了
将训练集上训练出来的模型拿到开发集（dev dataset）上 finetune 可以提高测试集（test dataset）的得分，因为开发集与测试集的分布比较相近
在开发集和测试集上训一个语言模型，用这个语言模型给训练集中的句子打分，选出一些高分句子
集成学习：训练多个不同初始化或架构的模型，并使用集成方法（如投票或平均）来产生最终翻译。这可以减少单一模型的过拟合风险，提高翻译的稳定性。