神经元特化:利用内在任务模块化实现多语言机器翻译
论文地址:https://arxiv.org/abs/2404.11201
在自然语言处理领域,多语言机器翻译(MMT)至关重要,但传统多语言翻译方法在处理多种语言时,面临多语言训练干扰问题,限制了翻译质量提升。本文围绕此问题展开研究,提出神经元特化方法,为多语言机器翻译发展提供新思路。
一图流:
一、研究背景
1.1 多语言训练的困境
多语言机器翻译旨在用统一模型处理多种语言对翻译任务,联合训练多语言数据可促进知识转移,对低资源语言翻译有益。但不同语言在语法、语义和表达方式上的差异,导致优化目标冲突,产生负面干扰。
例如词序,不同语言要求不同,模型难以同时满足,致使高资源语言翻译性能下降,模型容量有限时干扰加剧,严重影响多语言翻译质量。
1.2 现有方法的局限
为应对多语言训练干扰,研究者提出多种模块化方法,如语言特定建模和适配器。语言特定建模为不同语言添加特定模块,适配器在模型中插入轻量级模块。
但这些方法依赖启发式规则分配任务特定容量,缺乏明确归纳偏差。如语言家族适配器靠先验知识控制参数共享,或直接隔离参数,虽减少干扰却阻碍知识转移,无法充分利用语言共性。
而且,这些模块化方法大幅增加模型参数数量,导致内存需求增大、推理时间变长。与之对比,本文方法利用模型内在模块化信号,不增加额外参数,有效促进任务分离。
1.3 研究的启发与思路
视觉和认知科学领域研究发现,统一多任务模型训练时会自发形成特定功能专业化,混合专家Transformer系统也有类似现象。这表明多任务训练能让网络自然演化出专业化模块管理多样化任务,去除这些模块会影响任务性能。
受此启发,本文思考多语言翻译模型中是否存在类似内在任务特定模块化结构,若能发现并利用,或可减少干扰、提升知识转移效率与多语言翻译性能,进而展开深入研究。
二、神经元结构分析
2.1 识别特定任务神经元
为探究多语言网络中是否存在任务特定模块化结构,以多语言翻译为测试平台,将每个翻译方向视为独立任务,对预训练多语言模型中的前馈网络(FFN)神经元展开分析。FFN包含大量参数,其神经元激活状态影响模型输出。
识别过程分激活记录和神经元选择两步。激活记录阶段,给定第t个任务的验证数据集,在验证时测量FFN层神经元激活频率。
对数据集中每个样本,经ReLU激活函数后记录神经元状态,用二进制向量存储,将样本所有token的神经元激活状态合并得到该样本向量,再合并数据集中所有样本向量,得到累积向量,反映前向传播中每个神经元被激活频率。神经元选择阶段,基于激活频率识别特定任务神经元。
按预设阈值k,逐步选择激活频率最高的神经元组成子集,直至满足条件。k决定被认为对特定任务专业化必要的神经元激活程度,取值0%到100%。k值越低,特定任务神经元越稀疏。对每个任务的所有FFN层重复此过程,获得所有任务的特定任务神经元。
2.2 基于EC30的分析
2.2.1 神经元重叠反映语言相近性
在EC30数据集上验证方法有效性并研究神经元特性。EC30是精心设计的多语言翻译基准数据集,涵盖5个语系30种语言,从高资源到低资源,多样性便于将实验观察与语言特性联系。
上图展示了从第一个解码器前馈神经网络层中提取的特定神经元在所有非英语翻译方向上的成对交并比(IoU)分数,用于测量重叠程度。颜色较深的单元格表示更强的重叠,将颜色阈值设置为从 40 到 80 以提高可见性。
实验中按上述方法识别特定任务神经元,累积激活阈值k设为95%。直观上,相似任务的特定任务神经元集合重叠度高,故用交并比(IoU)分数衡量不同任务特定任务神经元重叠程度。实验发现神经元重叠存在结构分离,有语言特异性偏好,不同语系间神经元重叠低,编码器层更明显。
同时,神经元重叠与语言相近性相关,同一语系目标语言在解码器中更易激活相似神经元,如阿拉伯语和希伯来语。此外,神经元重叠还体现超越语系关系的语言特征,如马耳他语与罗曼语系语言因词汇借用存在显著重叠。这表明分析神经元重叠可反映语言相似性和关联性,助力理解多语言翻译模型内在机制。
2.2.2 神经元重叠的发展变化
对各层IoU分数分布可视化分析,了解特定任务神经元重叠在模型内部的演变。对每一层,计算所有可能任务间的两两IoU分数并以分布展示。总体而言,从浅层到深层,解码器中结构差异增强(IoU分数下降),编码器中结构差异减弱(IoU分数上升)。
上图展示的是在 EC30 数据集上,针对编码器和解码器中不同源语言和目标语言,特定任务神经元的 IoU 分数在模型各层的分布变化情况。
编码器中,层数增加,所有任务神经元重叠增加,神经元变得更具语言通用性,可能是编码器将不同语言文字映射到通用语义概念,使不同语言表示趋同。
解码器中,层数增加,特定任务神经元重叠变小,神经元行为更独立,模块化程度增强。这与多语言表示演变相似,即编码器嵌入接近,解码器嵌入不同。
此发现揭示多语言翻译模型内在特性,为模型优化提供支持。
三、神经元特化训练
3.1 前馈网络基础
Transformer模型中的前馈网络(FFN)对隐藏状态进行处理和转换,由两个线性层(fc1和fc2)和一个ReLU激活函数组成。
FFN模块对输入隐藏状态通过fc1层,再经ReLU激活函数,最后输入fc2层。其过程用公式表示为特定形式,FFN通过非线性变换学习复杂特征表示,为翻译任务提供有效信息。
3.2 特定任务FFN的特化
基于神经元结构分析,假设利用特定任务神经元内在模块化特征持续训练模型可提升任务特定性能,提出神经元特化训练方法,对FFN层进行特定任务的模块化处理。
对于预训练通用多语言Transformer模型,通过前文方法为每个任务t和阈值k导出特定任务神经元集合,再导出布尔掩码向量。训练时,将布尔掩码向量广播到FFN层并与特定值进行哈达玛积操作。
在此过程中,掩码向量控制参数更新,决定fc1层权重参数是否更新,使模型针对特定翻译任务优化,加强神经元分离。fc1层针对特定任务选择性更新,其他参数仍进行通用更新以保持模型稳定性,推理时应用相同掩码确保一致性,以此提升多语言翻译任务性能。
四、实验设置
4.1 数据集
4.1.1 IWSLT数据集
实验选择IWSLT数据集评估方法性能。按特定方法构建以英语为中心的数据集,包含8种语言,语料库大小有差异。为平衡低资源语言数据分布,学习30k的SentencePiece unigram共享词汇表,应用温度过采样技术。评估时用Flores - 200数据集替换标准测试集,该数据集为每个源文本提供多个平行句子,使评估更准确全面。
4.1.2 EC30数据集
使用大规模EC30数据集验证方法。该数据集含6100万条平行训练句子,涉及30个以英语为中心的语言对,来自5个语系,涵盖多种书写系统,能模拟现实多语言翻译场景。根据训练句子数量将语言对分为低、中、高资源类别。
数据处理时构建128k的共享SentencePiece BPE词汇表。验证和测试阶段,分别用Ntrex128和Flores - 200(合并devtest和test)作为验证集和测试集,进行跨域评估以确保结果可靠泛化。
4.2 对比系统
为验证神经元特化方法有效性,选择多个强开源基线模型对比。针对IWSLT数据集训练mT - small模型,采用6层Transformer结构,有4个注意力头,特定隐藏状态和FFN层维度,多对多翻译方向训练。对于EC30数据集训练mT - big模型,同样基于Transformer结构,6层,16个注意力头,不同隐藏状态和FFN层维度,多对多训练。
引入两种适配器方法:语言对适配器(AdapterLP)和语言家族适配器(AdapterFam)。AdapterLP根据语言对插入适配器模块减少干扰但不共享参数;对于EC30数据集,AdapterFam为每个语言家族训练模块促进相似语言参数共享。还对比LaSS方法,基于彩票票假设,先微调预训练模型,再根据参数幅度剪枝定位语言特定子网络,持续训练预训练模型,实验采用其最强配置。
4.3 实验实现与评估
所有基线模型按特定超参数设置训练,用Adam优化器,设置相关参数,学习率为特定值,热身步数4k。多数实验用4个NVIDIA A6000 (48G) GPU,基于Fairseq框架以FP16精度实现。评估指标上,IWSLT数据集用tokenized BLEU评估,EC30数据集用detokenized case-sensitive SacreBLEU评估,附录还提供ChrF++和COMET评估结果以全面评估模型性能。
五、实验结果与分析
5.1 小规模实验结果(IWSLT)
在IWSLT数据集实验中,Many-to-One(M2O)翻译方向上,神经元特化方法相比基线模型mT - small性能显著提升,平均BLEU增益达+1.7,表现最佳。如法语、波兰语等语言翻译成英语时,BLEU分数提升明显。AdapterLP虽有性能提升,但参数增加67%,且提升幅度仅+0.8,不如本文方法。
One-to-Many(O2M)翻译方向上,所有方法性能提升较弱,但本文方法仍有优势,平均BLEU增益+0.3,表现稳定。LaSS方法在部分语言上出现性能下降。
探索模型容量与性能关系发现,使用mT - shallow模型(mT - small浅层版本,参数减少39%)实验,缩小模型容量不总能减少干扰。减少参数在Many-to-One(X - En)方向提升性能,但在One-to-Many(En - X)方向导致性能下降。应用神经元特化方法,不仅增强Many-to-One(X - En)方向性能,还减轻One-to-Many(En - X)方向翻译质量下降。
5.2 大规模实验结果(EC30)
在大规模EC30数据集上,本文方法同样显著改进。高、中、低资源语言翻译任务中,本文方法均实现稳定一致性能提升,平均SacreBLEU增益达+1.3,超过所有基线模型。
LaSS方法在高资源O2M语言对上有一定效果,但在低资源语言上有局限,出现负向影响。AdapterLP参数增加87%,性能提升仍不及本文方法。
将神经元特化方法分别应用于编码器(Ours - Enc)和解码器(Ours - Dec)均能获相似性能增益,结合使用提升更显著。
效率对比上,AdapterLP引入大量额外可训练参数,LaSS子网络提取耗时且内存成本高。本文方法定位特定神经元仅需5分钟,内存成本低,体现良好效率优势。
随机掩码实验验证特定神经元识别过程有效性,随机选择神经元进行特化训练,在高资源O2M方向有一定性能提升,但在低资源任务上牺牲性能,证明本文识别方法定位内在特定任务神经元的有效性。
探索唯一超参数k对性能影响,结果显示k值增加,性能总体上升,k = 95%(约25%稀疏度)时达最佳性能。k值过低,模型容量大幅降低导致性能下降。
5.3 减少干扰的影响
评估神经元特化方法减少干扰和增强跨语言转移效果,参照特定方法训练双语模型,与传统多语言基线模型(mT - big)和神经元特化模型对比。
传统多语言模型(mT - big)在低资源语言翻译中促进正向转移,但在高资源语言上产生负向干扰。本文神经元特化方法在高资源设置下有效减少干扰,在O2M和M2O方向上相比mT - big有SacreBLEU增益,低资源语言性能也显著提升。
不过,在多数高资源O2M方向上,本文方法仍落后于双语模型,表明虽大幅减少干扰,但仍有提升空间。
六、研究结论
6.1 研究成果总结
本文深入研究多语言网络内在任务特定模块化,识别并利用该结构减轻多语言翻译干扰。发现FFN神经元以语言特定方式激活,其结构重叠反映语言相近性,且重叠模式在模型不同层有规律变化。
基于此提出神经元特化方法,通过识别特定任务神经元,对FFN层模块化处理,稀疏网络持续更新,增强任务特异性,提高知识转移效率。在不同资源水平实验中,该方法始终优于强大基线系统,提升翻译质量,证明在减少高资源语言干扰和增强低资源语言知识转移方面有效。
6.2 研究局限性与未来方向
研究存在局限性。主要集中在多语言机器翻译领域,未来可将多语言能力探索扩展到更广泛多语言自然语言处理任务,如文本分类、问答系统等,验证和拓展方法有效性与适用性。
分析仅局限于Transformer架构中的前馈网络(FFN)组件,Transformer其他组件如注意力机制、层归一化模块等在多语言翻译中也很重要,未来可评估这些组件的模块化,全面理解模型整体功能和内在机制。
识别特定任务神经元主要针对使用ReLU作为激活函数的FFN神经元,大语言模型探索了其他激活函数,如GELU,未来可研究使用其他激活函数的FFN神经元,拓展对多语言模型神经元特性的理解。
总体而言,本文研究为多语言机器翻译提供新思路和方法,加深对多语言模型内在模块化理解,具有重要理论和实践意义。
关键问题
神经元特化方法与其他减少多语言翻译干扰的方法相比,主要优势是什么?
答:神经元特化方法通过识别网络中固有的任务特定模块化,利用神经元的语言特异性激活和重叠模式,在不增加额外参数的情况下减少干扰。
相比之下,像适配器等方法依赖启发式分配容量,增加了参数和内存需求;LaSS 等方法在提取子网时可能无法反映原始模型模块化,且资源消耗大,而神经元特化方法在效率和性能提升上表现更优。
在实验中,为什么选择 IWSLT 和 EC30 这两个数据集?
答:IWSLT 数据集构建了以英语为中心的多语言数据集,涵盖一定数量不同规模的语料库,通过替换测试集可进行更全面评估,适用于小规模实验场景。
EC30 数据集规模大,包含 30 种语言的 6100 万平行训练句,覆盖 5 个语系和多种书写系统,且在各资源水平平衡,能很好地代表多语言翻译中的多种语言特性和数据分布,适合大规模实验及研究不同资源水平下模型的表现。
神经元重叠模式在编码器和解码器中的不同变化趋势对多语言翻译模型有什么意义?
答:在编码器中,神经元重叠增加,意味着神经元变得更具语言通用性,有助于将不同语言的文字映射到语义概念,促进不同语言间的信息融合。
在解码器中,神经元重叠减少,模块化增强,神经元行为更独立,这使得模型在生成目标语言时能更好地适应不同语言的特点,提高翻译的准确性和针对性,两者变化趋势协同作用,优化多语言翻译模型性能 。