论文解读 | EMNLP 2024 | 神经元特化：利用内在任务模块化实现多语言机器翻译

最新推荐文章于 2025-05-12 17:30:24 发布

是麟渊

最新推荐文章于 2025-05-12 17:30:24 发布

阅读量791

点赞数 21

分类专栏： Paper Cracker | 顶会论文深度解构文章标签：语言模型人工智能自然语言处理机器翻译

本文链接：https://blog.csdn.net/2302_79932616/article/details/147313875

版权

Paper Cracker | 顶会论文深度解构专栏收录该内容

9 篇文章

订阅专栏

神经元特化：利用内在任务模块化实现多语言机器翻译

论文地址：https://arxiv.org/abs/2404.11201

在自然语言处理领域，多语言机器翻译（MMT）至关重要，但传统多语言翻译方法在处理多种语言时，面临多语言训练干扰问题，限制了翻译质量提升。本文围绕此问题展开研究，提出神经元特化方法，为多语言机器翻译发展提供新思路。

一图流：

一、研究背景

1.1 多语言训练的困境

多语言机器翻译旨在用统一模型处理多种语言对翻译任务，联合训练多语言数据可促进知识转移，对低资源语言翻译有益。但不同语言在语法、语义和表达方式上的差异，导致优化目标冲突，产生负面干扰。

例如词序，不同语言要求不同，模型难以同时满足，致使高资源语言翻译性能下降，模型容量有限时干扰加剧，严重影响多语言翻译质量。

1.2 现有方法的局限

为应对多语言训练干扰，研究者提出多种模块化方法，如语言特定建模和适配器。语言特定建模为不同语言添加特定模块，适配器在模型中插入轻量级模块。

但这些方法依赖启发式规则分配任务特定容量，缺乏明确归纳偏差。如语言家族适配器靠先验知识控制参数共享，或直接隔离参数，虽减少干扰却阻碍知识转移，无法充分利用语言共性。

而且，这些模块化方法大幅增加模型参数数量，导致内存需求增大、推理时间变长。与之对比，本文方法利用模型内在模块化信号，不增加额外参数，有效促进任务分离。

1.3 研究的启发与思路

视觉和认知科学领域研究发现，统一多任务模型训练时会自发形成特定功能专业化，混合专家Transformer系统也有类似现象。这表明多任务训练能让网络自然演化出专业化模块管理多样化任务，去除这些模块会影响任务性能。

受此启发，本文思考多语言翻译模型中是否存在类似内在任务特定模块化结构，若能发现并利用，或可减少干扰、提升知识转移效率与多语言翻译性能，进而展开深入研究。

二、神经元结构分析

2.1 识别特定任务神经元

为探究多语言网络中是否存在任务特定模块化结构，以多语言翻译为测试平台，将每个翻译方向视为独立任务，对预训练多语言模型中的前馈网络（FFN）神经元展开分析。FFN包含大量参数，其神经元激活状态影响模型输出。

识别过程分激活记录和神经元选择两步。激活记录阶段，给定第t个任务的验证数据集，在验证时测量FFN层神经元激活频率。

对数据集中每个样本，经ReLU激活函数后记录神经元状态，用二进制向量存储，将样本所有token的神经元激活状态合并得到该样本向量，再合并数据集中所有样本向量，得到累积向量，反映前向传播中每个神经元被激活频率。神经元选择阶段，基于激活频率识别特定任务神经元。

按预设阈值k，逐步选择激活频率最高的神经元组成子集，直至满足条件。k决定被认为对特定任务专业化必要的神经元激活程度，取值0%到100%。k值越低，特定任务神经元越稀疏。对每个任务的所有FFN层重复此过程，获得所有任务的特定任务神经元。

2.2 基于EC30的分析

2.2.1 神经元重叠反映语言相近性

在EC30数据集上验证方法有效性并研究神经元特性。EC30是精心设计的多语言翻译基准数据集，涵盖5个语系30种语言，从高资源到低资源，多样性便于将实验观察与语言特性联系。

上图展示了从第一个解码器前馈神经网络层中提取的特定神经元在所有非英语翻译方向上的成对交并比（IoU）分数，用于测量重叠程度。颜色较深的单元格表示更强的重叠，将颜色阈值设置为从 40 到 80 以提高可见性。

实验中按上述方法识别特定任务神经元，累积激活阈值k设为95%。直观上，相似任务的特定任务神经元集合重叠度高，故用交并比（IoU）分数衡量不同任务特定任务神经元重叠程度。实验发现神经元重叠存在结构分离，有语言特异性偏好，不同语系间神经元重叠低，编码器层更明显。

同时，神经元重叠与语言相近性相关，同一语系目标语言在解码器中更易激活相似神经元，如阿拉伯语和希伯来语。此外，神经元重叠还体现超越语系关系的语言特征，如马耳他语与罗曼语系语言因词汇借用存在显著重叠。这表明分析神经元重叠可反映语言相似性和关联性，助力理解多语言翻译模型内在机制。

2.2.2 神经元重叠的发展变化

对各层IoU分数分布可视化分析，了解特定任务神经元重叠在模型内部的演变。对每一层，计算所有可能任务间的两两IoU分数并以分布展示。总体而言，从浅层到深层，解码器中结构差异增强（IoU分数下降），编码器中结构差异减弱（IoU分数上升）。

上图展示的是在 EC30 数据集上，针对编码器和解码器中不同源语言和目标语言，特定任务神经元的 IoU 分数在模型各层的分布变化情况。

编码器中，层数增加，所有任务神经元重叠增加，神经元变得更具语言通用性，可能是编码器将不同语言文字映射到通用语义概念，使不同语言表示趋同。

解码器中，层数增加，特定任务神经元重叠变小，神经元行为更独立，模块化程度增强。这与多语言表示演变相似，即编码器嵌入接近，解码器嵌入不同。

此发现揭示多语言翻译模型内在特性，为模型优化提供支持。

三、神经元特化训练

3.1 前馈网络基础

Transformer模型中的前馈网络（FFN）对隐藏状态进行处理和转换，由两个线性层（fc1和fc2）和一个ReLU激活函数组成。

FFN模块对输入隐藏状态通过fc1层，再经ReLU激活函数，最后输入fc2层。其过程用公式表示为特定形式，FFN通过非线性变换学习复杂特征表示，为翻译任务提供有效信息。

3.2 特定任务FFN的特化

基于神经元结构分析，假设利用特定任务神经元内在模块化特征持续训练模型可提升任务特定性能，提出神经元特化训练方法，对FFN层进行特定任务的模块化处理。

对于预训练通用多语言Transformer模型，通过前文方法为每个任务t和阈值k导出特定任务神经元集合，再导出布尔掩码向量。训练时，将布尔掩码向量广播到FFN层并与特定值进行哈达玛积操作。

在此过程中，掩码向量控制参数更新，决定fc1层权重参数是否更新，使模型针对特定翻译任务优化，加强神经元分离。fc1层针对特定任务选择性更新，其他参数仍进行通用更新以保持模型稳定性，推理时应用相同掩码确保一致性，以此提升多语言翻译任务性能。

四、实验设置

4.1 数据集

4.1.1 IWSLT数据集

实验选择IWSLT数据集评估方法性能。按特定方法构建以英语为中心的数据集，包含8种语言，语料库大小有差异。为平衡低资源语言数据分布，学习30k的SentencePiece unigram共享词汇表，应用温度过采样技术。评估时用Flores - 200数据集替换标准测试集，该数据集为每个源文本提供多个平行句子，使评估更准确全面。

4.1.2 EC30数据集

使用大规模EC30数据集验证方法。该数据集含6100万条平行训练句子，涉及30个以英语为中心的语言对，来自5个语系，涵盖多种书写系统，能模拟现实多语言翻译场景。根据训练句子数量将语言对分为低、中、高资源类别。

数据处理时构建128k的共享SentencePiece BPE词汇表。验证和测试阶段，分别用Ntrex128和Flores - 200（合并devtest和test）作为验证集和测试集，进行跨域评估以确保结果可靠泛化。

4.2 对比系统

为验证神经元特化方法有效性，选择多个强开源基线模型对比。针对IWSLT数据集训练mT - small模型，采用6层Transformer结构，有4个注意力头，特定隐藏状态和FFN层维度，多对多翻译方向训练。对于EC30数据集训练mT - big模型，同样基于Transformer结构，6层，16个注意力头，不同隐藏状态和FFN层维度，多对多训练。

引入两种适配器方法：语言对适配器（AdapterLP）和语言家族适配器（AdapterFam）。AdapterLP根据语言对插入适配器模块减少干扰但不共享参数；对于EC30数据集，AdapterFam为每个语言家族训练模块促进相似语言参数共享。还对比LaSS方法，基于彩票票假设，先微调预训练模型，再根据参数幅度剪枝定位语言特定子网络，持续训练预训练模型，实验采用其最强配置。

4.3 实验实现与评估

所有基线模型按特定超参数设置训练，用Adam优化器，设置相关参数，学习率为特定值，热身步数4k。多数实验用4个NVIDIA A6000 (48G) GPU，基于Fairseq框架以FP16精度实现。评估指标上，IWSLT数据集用tokenized BLEU评估，EC30数据集用detokenized case-sensitive SacreBLEU评估，附录还提供ChrF++和COMET评估结果以全面评估模型性能。

五、实验结果与分析

5.1 小规模实验结果（IWSLT）

在IWSLT数据集实验中，Many-to-One（M2O）翻译方向上，神经元特化方法相比基线模型mT - small性能显著提升，平均BLEU增益达+1.7，表现最佳。如法语、波兰语等语言翻译成英语时，BLEU分数提升明显。AdapterLP虽有性能提升，但参数增加67%，且提升幅度仅+0.8，不如本文方法。

One-to-Many（O2M）翻译方向上，所有方法性能提升较弱，但本文方法仍有优势，平均BLEU增益+0.3，表现稳定。LaSS方法在部分语言上出现性能下降。

探索模型容量与性能关系发现，使用mT - shallow模型（mT - small浅层版本，参数减少39%）实验，缩小模型容量不总能减少干扰。减少参数在Many-to-One（X - En）方向提升性能，但在One-to-Many（En - X）方向导致性能下降。应用神经元特化方法，不仅增强Many-to-One（X - En）方向性能，还减轻One-to-Many（En - X）方向翻译质量下降。