Datawhale AI 夏令营 NLP自然语言处理笔记 Task02-CSDN博客

本文链接：https://blog.csdn.net/m0_74113307/article/details/140503351

深度学习入门学习笔记：从Baseline代码详解开始

前言

本教程旨在帮助初学者通过解析基线代码来深入理解深度学习中的关键概念和模型结构，包括Seq2Seq模型结构、中英文分词、循环神经网络（RNN）、门控循环单元（GRU）等，以便更好地掌握深度学习技术并应用于实际任务中。

Baseline详解

### 神经机器翻译任务

神经机器翻译任务是基于神经网络模型来解决语言翻译问题。在此任务中，我们将以英文翻译中文为例，通过Seq2Seq模型进行建模和训练。

### 环境配置

在魔搭平台上进行模型训练，需要安装以下额外的包：

- `torchtext`：用于自然语言处理任务，提供数据预处理、词汇构建、序列化和批处理等功能。
- `jieba`：中文分词库，用于将中文文本切分成有意义的词语。
- `sacrebleu`：评估机器翻译质量的工具，通过计算BLEU得分衡量生成文本与参考译文之间的相似度。
- `spacy`：自然语言处理库，支持多语言的分词与训练。

安装命令：

```python
!pip install torchtext
!pip install jieba
!pip install sacrebleu
!pip install -U pip setuptools wheel -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -U 'spacy[cuda12x,transformers,lookups]' -i https://pypi.tuna.tsinghua.edu.cn/simple
```

### 数据预处理

数据预处理是确保模型能够有效学习源语言到目标语言映射的关键步骤。包括：

1. **清洗和规范化数据**：去除无关信息，统一格式，分句和分段。
2. **分词**：使用`jieba`对中文进行分词，使用`spacy`对英文进行分词。
3. **构建词汇表和词向量**：构建词汇表并为每个词分配唯一的索引，使用预训练的词向量或自己训练词向量。
4. **序列截断和填充**：限制输入序列的长度，填充至相同长度。
5. **添加特殊标记**：添加序列开始和结束标记，处理未知词。
6. **数据增强**：随机替换或删除词，同义词替换。
7. **数据分割**：将数据划分为训练集、验证集和测试集。

### 模型训练

神经机器翻译主要采用编码器-解码器（Encoder-Decoder）模型。编码器将源语言句子编码成一个向量，解码器将该向量解码为目标语言句子。

#### 编码器-解码器结构

1. **编码器**：由词嵌入层和中间网络层组成，将输入单词序列映射到多维实数表示空间并进行抽象。
2. **解码器**：结构与编码器一致，增加输出层和编码-解码注意力子层，用于生成目标语言单词。

#### GRU与注意力机制

基线代码中实现了一个经典的Seq2Seq模型，使用GRU网络，并加入了注意力机制。注意力机制允许解码器在生成每个输出词时关注编码器产生的所有中间状态，从而更好地利用源序列的信息。

#### 模型结构

1. **RNN编码器**：输入源语言单词序列，逐词更新模型的隐状态，最终生成包含源语言序列信息的向量。
2. **RNN解码器**：接收编码器输出的向量，生成目标语言单词序列，直到生成停止标记。

### 翻译质量评价

评估机器翻译系统输出结果的质量，可以采用人工评价、有参考答案的自动评价和无参考答案的自动评价。BLEU是常用的自动评价方法，通过与参考译文的比对来评估翻译质量。