Datawhale AI夏令营基于术语词典干预的机器翻译挑战赛 - TASK2

Mr_Smlie_000

已于 2024-07-17 22:13:09 修改

阅读量718

点赞数 28

分类专栏： 2024Datawhale AI夏令营 2期 NLP 文章标签：人工智能机器翻译自然语言处理

于 2024-07-17 22:12:23 首次发布

本文链接：https://blog.csdn.net/qq_68297714/article/details/140505236

版权

2024Datawhale AI夏令营 2期 NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言

这三天我主要基于于 Task2 的代码进行参数的调整以及代码的优化，得到了一些结论，但是相对而言最终的模型效果并不是特别理想，此外，在 task3 的代码发布以后我也同样尝试去进行了测试，在这上面有较好的效果，当然本篇主要是针对于 Task2 出现的一些结果和数据的总结和反思。

一、主要问题

首先是数据量的问题，因为一开始的时候我是在本地电脑上跑的代码，所以说在数据量上我一直担心会导致时间太长出现意外。因此一直在4000条数据，20轮训练以内进行测试。后来在出现 task3 以后，随着代码的运行次数增多。我尝试性的（在当时我个人看来有点冒险，毕竟要投入大量时间做一件没有把握的事）增大了数据量，发现仅仅就 task3 代码而言，其实几万条数据花费的时间还在接受范围内，此外，我使用魔塔平台提供的虚拟机同步进行代码运行，最终在3有较好的效果。由此来看，不要因为担心运行时间过长而刻意限制数据量。建议数据量N至少10000条以上，训练轮数5轮（10轮最好）从而看出明显的效果。

其次还有一个问题是硬件方面，由于在 task1 是数据量较小时运行速度不明显，但是当数据量上去以后可以明显的看出来，本地运行没有云端的计算机速度快，我是后面测试是又用魔搭才意识到的，因此，本地部署是可以，但是建议利用上云端资源同步进行。

二、参数微调结论

由于 task2 数据量较小，因此只具有一定的参考价值，各位酌情参考，下面可以调整的参数以及其作用：

    N_EPOCHS = 5    // 表示训练的轮数（epochs）。每个epoch是对整个训练数据集的一次完整遍历。增加epoch的数量可以提高模型的准确性，但同时也可能导致过拟合
    CLIP = 1    // 梯度裁剪（gradient clipping）的阈值。梯度裁剪是一种防止梯度爆炸的技术，通过设置一个阈值，当梯度的范数超过这个阈值时，将其缩放到该阈值以内。
    gradient_accumulation_steps = 2    // 梯度累积的步数。这个参数允许在更新模型参数之前累积多个小批量（mini-batch）的梯度，从而模拟更大的批量大小，而不会增加内存使用。
    # 模型参数
    INPUT_DIM = len(en_vocab)    // 输入维度，这里指的是英语词汇表的大小（len(en_vocab)）。这个参数决定了输入嵌入层的维度。
    OUTPUT_DIM = len(zh_vocab)    // 输出维度，这里指的是中文词汇表的大小（len(zh_vocab)）。这个参数决定了输出嵌入层的维度。
    EMB_DIM = 128    // 嵌入层（embedding layer）的维度。嵌入层将输入的离散符号（如单词）转换为连续的向量表示。
    HID_DIM = 256    // 隐藏层（hidden layer）的维度。这个参数决定了模型中隐藏层的神经元数量，影响模型的复杂度和学习能力。
    N_LAYERS = 2    // 模型中隐藏层的数量。增加层数可以提高模型的表达能力，但也可能导致过拟合。
    DROPOUT = 0.5    // 丢弃率（dropout rate）。Dropout是一种正则化技术，通过在训练过程中随机丢弃一部分神经元来防止过拟合。

经过测试（主要依靠控制台输出的Train Loss，Train PPL， Val. Loss: ， Val. PPL参数进行判断），EMB_DIM 和 HID_DIM 翻倍，N_LAYERS = 1 ，DROPOUT 稍低一点的效果较为好。其中 EMB_DIM 和 HID_DIM 会使得整体数值降低，N_LAYERS 高了以后没哟出现正面效果，分数提高的同时时间还变长。

三、代码优化

在代码方面，我和 凌晨三点半 队伍进行了合作交流，因此有一定的重合性，最后我主要采取了以下方式进行优化：数据清理、混合精度训练、梯度积累。

I. 数据清理

在深度学习模型的训练过程中，数据清理和预处理是非常关键的一步。清洗函数和预处理函数对提高模型的效果起到了至关重要的作用，具体表现为以下几个方面：

1. 处理缩略词和特殊符号

英文文本中包含许多缩略词和特殊符号，例如 "don't"、"can't" 等。`contractions.fix` 函数将这些缩略词展开为完整的单词，减少了模型学习的复杂性，因为模型不再需要单独记住这些缩略词的含义，从而提高了训练的效果。

2. 去除无关字符

通过正则表达式 `re.sub` 去掉括号中的内容（如某些注释性的文字），可以减少训练时的噪声数据，使模型更专注于主要内容。

- 对于英文文本，保留字母、数字和基本的标点符号，而去掉其他特殊字符，可以使模型训练过程中更关注文本的核心部分。

- 对于中文文本，保留中文字符和基本的标点符号，而去除其他不相关的字符也能有助于减小数据噪声。

3. 改进模型的泛化能力

数据清理后的文本更加规整，使得数据分布更加统一，有助于模型更好地学习文本模式，从而提高泛化能力。

4. 提高训练效率

清理后的数据量通常会减少，处理速度相对更快，能够加快模型的训练过程，提高训练效率。

下图是为进行清洗的翻译结果，可以明显看出脏数据的影响。

# 数据清洗函数
def unicode_to_ascii(text):
    return ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')


def preprocess_en(text):
    text = unicode_to_ascii(text.strip())
    text = contractions.fix(text)
    text = re.sub(r'\（[^）]*\）', '', text)
    text = re.sub(r"[^a-zA-Z0-9.!?]+", r" ", text)  # 保留数字和基本标点
    return text


def preprocess_zh(text):
    # 去除(掌声)等脏数据
    text = re.sub(r'\（[^）]*\）', '', text)
    text = re.sub(r"[^\u4e00-\u9fa5，。！？0-9]", "", text)  # 保留中文字符和基本标点
    return text

II. 混合精度训练（原型，融入时有改进）

混合精度训练可以在保持模型精度的同时，减少显存占用和提高训练速度。可以使用PyTorch的torch.cuda.amp模块来实现。

scaler = GradScaler()

for epoch in range(N_EPOCHS):
    for batch in train_loader:
        optimizer.zero_grad()

        with autocast():
            output = model(batch)
            loss = compute_loss(output, target)

        scaler.scale(loss).backward()
        scaler.unscale_(optimizer)
        torch.nn.utils.clip_grad_norm_(model.parameters(), CLIP)
        scaler.step(optimizer)
        scaler.update()

III. 梯度积累（原型，融入时有改进）

面对显存不足以支持大批量大小，可以考虑使用梯度累积（gradient accumulation）。即在多次迭代中累积梯度，然后进行一次优化步骤。

for epoch in range(N_EPOCHS):
    for i, batch in enumerate(train_loader):
        output = model(batch)
        loss = compute_loss(output, target)
        loss = loss / gradient_accumulation_steps
        loss.backward()

        if (i + 1) % gradient_accumulation_steps == 0:
            optimizer.step()
            optimizer.zero_grad()

四、总结

本次通过了大量的代码运行测试以及代码优化方案，以上提到的只是个人认为较为成功的一些结果，希望可以给各位有一定的启发作用，但是 task2 由于经验和时间的原因并没有得到较好的结果，只是为 task3 的优化进行了一定的积累，最终的测试上传结果并不理想，仍然有巨大的提上空间。

task1 效果：

task2 效果：

Mr_Smlie_000

关注

28
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营基于术语词典干预的机器翻译挑战赛 - TASK2

这三天我主要基于于 Task2 的代码进行参数的调整以及代码的优化，得到了一些结论，但是相对而言最终的模型效果并不是特别理想，此外，在 task3 的代码发布以后我也同样尝试去进行了测试，在这上面有较好的效果，当然本篇主要是针对于 Task2 出现的一些结果和数据的总结和反思。
复制链接

扫一扫