Datawhale AI夏令营基于术语词典干预的机器翻译挑战赛 - TASK2

前言


        这三天我主要基于于 Task2 的代码进行参数的调整以及代码的优化,得到了一些结论,但是相对而言最终的模型效果并不是特别理想,此外,在 task3 的代码发布以后我也同样尝试去进行了测试,在这上面有较好的效果,当然本篇主要是针对于 Task2 出现的一些结果和数据的总结和反思。


一、主要问题

        首先是数据量的问题,因为一开始的时候我是在本地电脑上跑的代码,所以说在数据量上我一直担心会导致时间太长出现意外。因此一直在4000条数据,20轮训练以内进行测试。后来在出现 task3 以后,随着代码的运行次数增多。我尝试性的(在当时我个人看来有点冒险,毕竟要投入大量时间做一件没有把握的事)增大了数据量,发现仅仅就 task3 代码而言,其实几万条数据花费的时间还在接受范围内,此外,我使用魔塔平台提供的虚拟机同步进行代码运行,最终在3有较好的效果。由此来看,不要因为担心运行时间过长而刻意限制数据量。建议数据量N至少10000条以上,训练轮数5轮(10轮最好)从而看出明显的效果。

        其次还有一个问题是硬件方面,由于在 task1 是数据量较小时运行速度不明显,但是当数据量上去以后可以明显的看出来,本地运行没有云端的计算机速度快,我是后面测试是又用魔搭才意识到的,因此,本地部署是可以,但是建议利用上云端资源同步进行


二、参数微调结论

        由于 task2 数据量较小,因此只具有一定的参考价值,各位酌情参考,下面可以调整的参数以及其作用:

    N_EPOCHS = 5    // 表示训练的轮数(epochs)。每个epoch是对整个训练数据集的一次完整遍历。增加epoch的数量可以提高模型的准确性,但同时也可能导致过拟合
    CLIP = 1    // 梯度裁剪(gradient clipping)的阈值。梯度裁剪是一种防止梯度爆炸的技术,通过设置一个阈值,当梯度的范数超过这个阈值时,将其缩放到该阈值以内。
    gradient_accumulation_steps = 2    // 梯度累积的步数。这个参数允许在更新模型参数之前累积多个小批量(mini-batch)的梯度,从而模拟更大的批量大小,而不会增加内存使用。
    # 模型参数
    INPUT_DIM = len(en_vocab)    // 输入维度,这里指的是英语词汇表的大小(len(en_vocab))。这个参数决定了输入嵌入层的维度。
    OUTPUT_DIM = len(zh_vocab)    // 输出维度,这里指的是中文词汇表的大小(len(zh_vocab))。这个参数决定了输出嵌入层的维度。
    EMB_DIM = 128    // 嵌入层(embedding layer)的维度。嵌入层将输入的离散符号(如单词)转换为连续的向量表示。
    HID_DIM = 256    // 隐藏层(hidden layer)的维度。这个参数决定了模型中隐藏层的神经元数量,影响模型的复杂度和学习能力。
    N_LAYERS = 2    // 模型中隐藏层的数量。增加层数可以提高模型的表达能力,但也可能导致过拟合。
    DROPOUT = 0.5    // 丢弃率(dropout rate)。Dropout是一种正则化技术,通过在训练过程中随机丢弃一部分神经元来防止过拟合。

        经过测试(主要依靠控制台输出的Train Loss,Train PPL, Val. Loss: , Val. PPL参数进行判断),EMB_DIM HID_DIM 翻倍,N_LAYERS = 1DROPOUT 稍低一点 的效果较为好。其中 EMB_DIM HID_DIM 会使得整体数值降低,N_LAYERS  高了以后没哟出现正面效果,分数提高的同时时间还变长。


三、代码优化

        在代码方面,我和 凌晨三点半 队伍进行了合作交流,因此有一定的重合性,最后我主要采取了以下方式进行优化:数据清理 、 混合精度训练 、 梯度积累 。

I. 数据清理

在深度学习模型的训练过程中,数据清理和预处理是非常关键的一步。清洗函数和预处理函数对提高模型的效果起到了至关重要的作用,具体表现为以下几个方面:

1. 处理缩略词和特殊符号

        英文文本中包含许多缩略词和特殊符号,例如 "don't"、"can't" 等。`contractions.fix` 函数将这些缩略词展开为完整的单词,减少了模型学习的复杂性,因为模型不再需要单独记住这些缩略词的含义,从而提高了训练的效果。

2. 去除无关字符

        通过正则表达式 `re.sub` 去掉括号中的内容(如某些注释性的文字),可以减少训练时的噪声数据,使模型更专注于主要内容。

- 对于英文文本,保留字母、数字和基本的标点符号,而去掉其他特殊字符,可以使模型训练过程中更关注文本的核心部分。

- 对于中文文本,保留中文字符和基本的标点符号,而去除其他不相关的字符也能有助于减小数据噪声。

3. 改进模型的泛化能力

        数据清理后的文本更加规整,使得数据分布更加统一,有助于模型更好地学习文本模式,从而提高泛化能力。

4. 提高训练效率

        清理后的数据量通常会减少,处理速度相对更快,能够加快模型的训练过程,提高训练效率。

下图是为进行清洗的翻译结果,可以明显看出脏数据的影响。

# 数据清洗函数
def unicode_to_ascii(text):
    return ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')


def preprocess_en(text):
    text = unicode_to_ascii(text.strip())
    text = contractions.fix(text)
    text = re.sub(r'\([^)]*\)', '', text)
    text = re.sub(r"[^a-zA-Z0-9.!?]+", r" ", text)  # 保留数字和基本标点
    return text


def preprocess_zh(text):
    # 去除(掌声)等脏数据
    text = re.sub(r'\([^)]*\)', '', text)
    text = re.sub(r"[^\u4e00-\u9fa5,。!?0-9]", "", text)  # 保留中文字符和基本标点
    return text

 II. 混合精度训练(原型,融入时有改进)

         混合精度训练可以在保持模型精度的同时,减少显存占用和提高训练速度。可以使用PyTorch的torch.cuda.amp模块来实现。

scaler = GradScaler()

for epoch in range(N_EPOCHS):
    for batch in train_loader:
        optimizer.zero_grad()

        with autocast():
            output = model(batch)
            loss = compute_loss(output, target)

        scaler.scale(loss).backward()
        scaler.unscale_(optimizer)
        torch.nn.utils.clip_grad_norm_(model.parameters(), CLIP)
        scaler.step(optimizer)
        scaler.update()

III. 梯度积累(原型,融入时有改进)

        面对显存不足以支持大批量大小,可以考虑使用梯度累积(gradient accumulation)。即在多次迭代中累积梯度,然后进行一次优化步骤。

for epoch in range(N_EPOCHS):
    for i, batch in enumerate(train_loader):
        output = model(batch)
        loss = compute_loss(output, target)
        loss = loss / gradient_accumulation_steps
        loss.backward()

        if (i + 1) % gradient_accumulation_steps == 0:
            optimizer.step()
            optimizer.zero_grad()


四、总结

        本次通过了大量的代码运行测试以及代码优化方案,以上提到的只是个人认为较为成功的一些结果,希望可以给各位有一定的启发作用,但是 task2 由于经验和时间的原因并没有得到较好的结果,只是为 task3 的优化进行了一定的积累,最终的测试上传结果并不理想,仍然有巨大的提上空间

task1 效果:

task2 效果:

  • 28
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值