【DataWhale AI 夏令营】NLP：基于术语词典干预的机器翻译挑战赛—

本文链接：https://blog.csdn.net/m0_64428166/article/details/140505543

一、赛题任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言，中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据，还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果。

二、赛题数据

训练集：双语数据 - 中英14万余双语句对
开发集：英中1000双语句对
测试集：英中1000双语句对
术语词典：英中2226条

三、基于 Seq2Seq 的 Baseline

1. 配置环境

安装torchtext、jieba、sacrebleu库

torchtext ：是一个用于自然语言处理（NLP）任务的库，它提供了丰富的功能，包括数据预处理、词汇构建、序列化和批处理等，特别适合于文本分类、情感分析、机器翻译等任务
jieba：是一个中文分词库，用于将中文文本切分成有意义的词语
sacrebleu：用于评估机器翻译质量的工具，主要通过计算BLEU（Bilingual Evaluation Understudy）得分来衡量生成文本与参考译文之间的相似度

!mkdir ../model
!mkdir ../results
!pip install torchtext
!pip install jieba
!pip install sacrebleu

安装spacy库

spacy：是一个强大的自然语言处理库，支持70+语言的分词与训练

!pip install -U pip setuptools wheel -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install -U 'spacy[cuda12x]' -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install ../dataset/en_core_web_trf-3.7.3-py3-none-any.whl
# !python -m spacy download en_core_web_sm

2.数据预处理

清洗和规范化数据

去除无关信息：删除HTML标签、特殊字符、非文本内容等，确保文本的纯净性，如：“Joyboy!（敲鼓声）（脚踏声）乔伊波伊”、“Objection! （哇袄）异议”中的声音词。
统一格式：转换所有文本为小写，确保一致性；标准化日期、数字等格式。
分句和分段：将长文本分割成句子或段落，便于处理和训练。

分词

分词：将句子分解成单词或词素（构成单词的基本组成部分，一个词素可以是一个完整的单词，也可以是单词的一部分，但每一个词素都至少携带一部分语义或语法信息），这是NLP中最基本的步骤之一。
这里使用jieba 对中文进行分词，使用spacy对英文进行分词。

构建词汇表和词向量

词汇表构建：从训练数据中收集所有出现过的词汇，构建词汇表，并为每个词分配一个唯一的索引。
词向量：使用预训练的词向量或自己训练词向量，将词汇表中的词映射到高维空间中的向量，以捕捉语义信息。

序列截断和填充

序列截断：限制输入序列的长度，过长的序列可能增加计算成本，同时也可能包含冗余信息。
序列填充：将所有序列填充至相同的长度，便于批量处理。通常使用标记填充。

添加特殊标记

序列开始和结束标记：在序列两端添加（Sequence Start）和（Sequence End）标记，帮助模型识别序列的起始和结束。
未知词标记：为不在词汇表中的词添加（Unknown）标记，使模型能够处理未见过的词汇。

数据增强

随机替换或删除词：在训练数据中随机替换或删除一些词，增强模型的鲁棒性。
同义词替换：使用同义词替换原文中的词，增加训练数据的多样性。

数据分割

划分数据集：将数据划分为训练集、验证集和测试集，分别用于模型训练、参数调整和最终性能评估。

3. 模型训练

编码器

在源语言句子的表示形式确定之后，需要设计相应的编码器和解码器结构。在当今主流的神经机器翻译系统中，编码器由词嵌入层和中间网络层组成：

当输入一串单词序列时，词嵌入层(embedding)会将每个单词映射到多维实数表示空间，这个过程也被称为词嵌入。
之后中间层会对词嵌入向量进行更深层的抽象，得到输入单词序列的中间表示。中间层的实现方式有很多，比如：循环神经网络、卷积神经网络、自注意力机制等都是模型常用的结构。

解码器

解码器的结构基本上和编码器是一致的，在基于循环神经网络的翻译模型中，解码器只比编码器多了输出层，用于输出每个目标语言位置的单词生成概率，而在基于自注意力机制的翻译模型中，除了输出层，解码器还比编码器多一个编码解码注意力子层，用于帮助模型更好地利用源语言信息。

基于循环神经网络的机器翻译模型

模型图例详解

编码器

左侧为编码器部分，源语言单词按照其在文本序列中的先后顺序被依次送入到循环神经网络（RNN）当中。在每个时间步 t 中，模型依据送入的源语言单词 x{t} 对应修改并维护其模型内部的隐状态 h{t} ，这个隐状态编码了输入的源语言序列前 t 个时刻的所有必要信息。按照这种方式当 m 个输入全部被送入到编码器之后，所对应的 h{m} 可以认为包含了源语言序列的所有信息。
右半部分是 RNN 解码器部分，它接收编码器输出的编码源语言句子信息的向量 hm 作为初始隐状态 s0 。由于 RNN 的循环过程在每个时间步都要求一个输入单词，为了启动解码过程，一般会使用一个保留的特殊符号 “[Start]” 作为翻译开始的标记送入到 RNN 解码器当中并解码出目标语言序列的第一个单词 z1 。接下来，z1 会作为下一个时刻的输入被送入到循环神经网络当中，并按照不断迭代产生后续的预测。由于目标语言序列的长度无法被提前预知，因此使用另一个保留符号 “[Stop]” 作为预测结束的标志。当某一个时刻 t 预测出的目标语言单词为 z{t} =“[Stop]” 时，解码过程动态地停止。在上述过程当中，主要涉及到两步运算，第一步是 RNN 接收前一时刻隐状态 s{t-1} 并依据当前时刻输入 z{t-1}（目标语言单词 z{t-1} 对应的语义嵌入）对隐状态进行维护并生成 s{t} 的运算过程，第二步是依据当前时刻隐状态生成目标语言单词的过程：

其中 U,W,V 是可学习的参数。U,W 负责维护循环状态，而 V 负责将当前时刻状态转换到词表大小的概率分布
$\in R^{vocab_size}$ ，从中可以采样得到目标语言单词 z{t}。

通过循环网络对源语言文本进行编码，并生成目标语言翻译结果的过程十分简单。然而，它仅仅使用一个定长的向量 h{m} 编码整个源语言序列。这对于较短的源语言文本没有什么问题，但随着文本序列长度的逐渐加长，单一的一个向量 h{m} 可能不足以承载源语言序列当中的所有信息。

变化趋势

曲线图
蓝色的线代表上述简单循环神经网络性能随源语言文本长度的变化趋势。当文本长度在 20 个单词以内时，单一向量能够承载源语言文本中的必要信息。随着文本序列的进一步增加，翻译性能的评价指标 BLEU 的值就开始出现明显地下降。因此，这就启发我们使用更加有效地机制从编码器向解码器传递源语言信息。

引入注意力机制

引入注意力机制的循环机器翻译架构与基于简单循环网络的机器翻译模型大体结构相似，均采用循环神经网络作为编码器与解码器的实现。关键的不同点在于注意力机制的引入使得不再需要把原始文本中的所有必要信息压缩到一个向量当中。引入注意力机制的循环神经网络机器翻译架构如图所示:
引入机制
传统的 Seq2Seq 模型在解码阶段仅依赖于编码器产生的最后一个隐藏状态，这在处理长序列时效果不佳。注意力机制允许解码器在生成每个输出词时，关注编码器产生的所有中间状态，从而更好地利用源序列的信息。具体来说，给定源语言序列经过编码器输出的向量序列 $h_{1},h_{2},h_{3},...,h_{m}$ ，注意力机制旨在依据解码端翻译的需要，自适应地从这个向量序列中查找对应的信息。