Datawhale AI 夏令营——从零入门NLP竞赛 Task 03 笔记

作者:一片蔚蓝的天空

一、Transformer 介绍

1. 背景与动机

  • 传统方法局限性:循环神经网络(RNN)和卷积神经网络(CNN)在处理长序列依赖时存在局限性。
  • RNN问题:随着序列长度增加,早期上下文信息逐渐遗忘。
  • CNN问题:受限的上下文窗口和多层卷积操作导致信息传递损失。

2. Transformer模型

  • 提出背景:2017年由谷歌研究人员提出,用于解决传统方法在长序列依赖建模中的不足。
  • 核心思想:完全通过注意力机制完成对源语言和目标语言序列全局依赖的建模。

3. 主要组件

  • 编码器(Encoder):将输入序列转换为连续表示。
  • 解码器(Decoder):根据编码器输出和已生成的输出序列生成目标语言序列。
  • 注意力层:包括自注意力和多头自注意力机制。

4. 关键特性

  • 自注意力机制(Self-Attention):衡量上下文中每个单词对当前单词的重要性。
  • 多头自注意力(Multi-Head Self-Attention):并行地从不同表示子空间中获取信息。

5. 编码器架构

  • 层结构:由多个相同的层叠加而成,每层包含多头自注意力和前馈网络。
  • 自注意力层:计算输入序列中每个单词的上下文权重。
  • 前馈网络:对自注意力层输出进行非线性变换。

6. 位置编码

  • 目的:为模型提供单词在序列中的位置信息。
  • 计算方法:使用正余弦函数生成位置编码向量。

7. 残差连接与层归一化

  • 残差连接:帮助梯度在深层网络中有效流动,避免梯度消失。
  • 层归一化:稳定每层的输入输出范围,加速模型训练。

8. 解码器结构

  • 掩码自注意力:防止在生成当前词时看到后续词,保持自回归属性。
  • 交叉注意力:使解码器能够关注源语言序列的相关部分。

9. 训练与优化

  • 学习率调度:使用“Noam”学习率预热策略,动态调整学习率。
  • Dropout:在训练中防止过拟合,测试时禁用以确保输出稳定性。

10. 并行化能力

  • 训练阶段:自注意力和前馈网络层的计算可以并行执行。
  • 推理阶段:解码器的并行化复杂,但可通过特定技术实现。

11. 应用与影响

  • 机器翻译:Transformer在机器翻译领域取得突破性进展。
  • 自然语言处理:广泛应用于文本生成、语言理解等任务。

12. 学习资源

二、机器翻译比赛技巧

1. 调整模型参数

  • 增加模型深度:通过增加编码器或解码器层数提升模型表达能力。
  • 增加模型宽度:扩大隐藏层尺寸,增强模型处理复杂内容的能力。

2. 术语词典的应用

  • 翻译输出替换:在模型生成的翻译中替换术语。
  • 数据预处理整合:确保术语在翻译中的一致性。
  • 动态调整嵌入:在模型中加入额外层,为术语生成专门嵌入向量。

3. 数据清洗

  • 重要性:清洗训练集中的脏数据,提升模型训练效果。

4. 数据扩增策略

  • 回译:通过源语言到目标语言再回译,生成额外训练数据。
  • 同义词替换:随机替换句子中的词为同义词。
  • 句法和语义解析:使用技术重新表述句子,保持原意。
  • 多语言翻译:翻译成多种语言后再回译,增加文本多样性。

5. 学习率调度策略

  • Noam Scheduler:结合warmup和衰减阶段。
  • Step Decay:按固定比例衰减学习率。
  • Cosine Annealing:周期性变化学习率,从初始值下降到接近零再上升。

6. 预训练模型训练

  • 小模型选择:训练1B参数以下的小模型,减少GPU资源需求。

7. 开发集和测试集优化

  • Finetune:在开发集上Finetune模型,提高测试集得分。
  • 语言模型打分:在开发集和测试集上训练语言模型,筛选高分句子。

8. 集成学习

  • 多模型集成:训练多个不同初始化或架构的模型,使用集成方法提高翻译稳定性。

9. 实践建议

  • 调参:调整epochs和模型参数如head、layers等。
  • 术语词典:在不同阶段整合术语词典,提升翻译一致性。
  • 数据扩增:采用多种方法增加训练数据多样性。
  • 学习率调整:采用精细的学习率调度策略,提升训练效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值