作者 | 周航
单位 | 东北大学自然语言处理实验室
来自 | 机器翻译学堂
进NLP群—>加入NLP交流群
论文题目:Reinforcement Learning with Large Action Spaces for Neural Machine Translation
论文机构:耶路撒冷希伯来大学计算机科学系
论文作者:Asaf Yehudai, Leshem Choshen, Lior Fox, Omri Abend
论文链接:https://arxiv.org/abs/2210.03053
-01-
主要贡献
提出在不改变词汇量的前提下降低动作空间的维度从而在 BLEU 值、语义相似度、和手动评估这些指标上获得显著的改善。通过一个对类似的动作进行泛化的层来初始化网络的最后一个全连接层(将网络的内部维度映射到词汇维度),让 RL 在 NMT 上的性能得到大幅提升:平均提升了1.5个 BLEU 点。
-02-
摘要
在最大似然估计 (MLE) 预训练之后应用强化学习 (RL) 是一种通用的方法,可以提高神经机器翻译(NMT)的性能。然而,最近的工作认为,RL 对 NMT 的提升主要是因为 RL 可以增强那些在预训练中已经获得比较高的概率的 token。我们假设大动作空间是 RL 提升 MT 效率的主要障碍,并且通过两组实验来支撑我们的假设。首先,我们发现减少词汇量可以改善 RL 的效率。其次,我们发现在不改变词汇量的前提下降低动作空间的维度同样可以在BLEU 值、语义相似度、和手动评估这些指标上获得显著的改善。事实上,通过一个对类似的动作进行泛化的层来初始化网络的最后一个全连接层(将网络的内部维度映射到词汇维度),我们让 RL 的性能得到大幅提升:平均1.5个 BLEU 点。
-03-
背景与理论介绍
MLE 算法及其缺陷
极大似然估计(MLE, Maximum Likelihood Estimation)的原理
(该部分内容摘录自维基百科:最大似然估计[1])
给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数 ,我们可以从这个分布中抽出一个具有 个值的采样 ,利用 计算出其似然函数:
若 是离散分布, 即是在参数为 时观测到这一采样的概率。若其是连续分布, 则为 联合分布的概率密度函数在观测值处的取值。一旦我们获得 ,我们就能求得一个关于 的估计。最大似然估计会寻找关于 的最可能的值(即,在所有可能的 取值中,寻找一个值使这个采样的“可能性”最大化)。从数学上来说,我们可以在 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 值即称为 的最大似然估计。由定义,最大似然估计是样本的函数。
极大似然估计的缺陷
该部分摘录自(肖桐 朱靖波,机器翻译:基础与模型,电子工业出版社, 2021.[2])
极大似然估计已成为机器翻译乃至整个自然语言处理领域中使用最广泛的训练用目标函数。但是,使用极大似然估计存在曝光偏置(Exposure Bias)问题和训练目标函数与任务评价指标不一致问题,具体体现在如下两个方面。
极大似然估计已成为机器翻译乃至整个自然语言处理领域中使用最广泛的训练用目标函数。但是,使用极大似然估计存在曝光偏置(Exposure Bias)问题和训练目标函数与任务评价指标不一致问题,具体体现在如下两个方面。
曝光偏置问题。在训练过程中,模型使用标注数据进行训练,因此模型在预测下一个单词时,解码器的输入是正确的译文片段。也就是,预测第 个单词时,系统使用了标准答案 作为历史信息。但是对新的句子进行翻译时,预测第 个单词时使用的是模型自己生成的前 个单词,即 。这意味着,训练时使用的输入数据(目标语言端)与真实翻译时的情况不符,如图1所示。由于模型在训练过程中一直使用标注数据作为解码器的输入,使得模型逐渐适应了标注数据。因此在推断阶段,模型无法很好地适应模型本身生成的数据,这就是曝光偏置问题。
训练目标函数与任务评价指标不一致问题。通常,在训练过程中,模型采用极大似然估计对训练数据进行学习,而在推断过程中,通常使用 BLEU 等外部评价指标来评价模型的性能。在机器翻译任务中,这个问题的一种体现是,训练数据上更低的困惑度不一定能带来 BLEU 的提升。更加理想的情况是,模型应该直接使性能评价指标最大化,而不是训练集数据上的似然函数。但是很多模型性能评价指标不可微分,这使得研究人员无法直接利用基于梯度的方法来优化这些指标。
图1 曝光偏置问题(基于循环神经网络的翻译模型)
对于上述提到的缺陷,其中一种较好的解决方法是使用强化学习。
强化学习和 MRT 方法
强化学习
(该部分内容摘录自维基百科:强化学习[3])
强化学习(英语:Reinforcement learning,简称 RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡,强化学习中的“探索-利用”的交换,在多臂老虎机问题和有限 MDP 中研究得最多。
MRT(Minimum Risk Traning for Neural Machine Translation[4])方法
在 MRT 方法中,风险被描述为以下公式:
对于训练集中的每个源语 ,假设模型的参数为 , 为所有候选目标语的其中一个样本, 为候选目标语和参考目标语的差异指标,风险公式定义为所有候选目标语和参考目标语的差异期望总和。将期望表达式展开,即对于每个 ,将其概率和差异指标求和,得到总体的差异期望。该公式存在的比较明显的问题是 集合中元素个数过多,导致计算成本巨高而无法计算。为了减小计算成本,对 进行采样得到 ,然后对于 求差异的期望,得到以下公式:
为了使取样后的样本的概率之和为1,对 进行归一化处理,同时为了训练过程中出现的一些问题,进行平滑处理,得到了 的表达式如下:
另外差异指标选择 BLEU 值,即:
将上述二式带入原式,得到:
值得注意的是,我们对这个公式对参数 进行求导,由于这个 BLEU 值 是个常量,和 无关,所以求导和梯度下降过程是不要求 BLEU 值是可微的,这也是使用强化学习方法的一个很大的优点。
对于 MRT 算法想要了解更多内容的可以阅读论文Minimum Risk Training for Neural Machine Translation。
-04-
作者的探索过程
以下是作者的思考过程。首先作者比较了获得较好效果的任务上的强化学习和使用在 NMT 任务上的强化学习,发现他们有一个最主要的差异就是动作空间的大小。在这里我用这个马里奥的游戏举例:使用强化学习训练马里奥游戏的任务时,动作空间只有控制马里奥前进、后退、跳跃这些数量很少的操作,而在NMT任务上,动作空间就变成了词汇表中所有的词汇,二者的空间大小差距巨大。
图2 作者的思考过程
发现这个差异后,作者直觉上认为就是因为动作空间实在太大了,才造成的强化学习训练效果不好,然后提出了减小动作空间会让训练效果更好的假设。
然后为了验证这个假设,作者进行了一个大幅度减小动作空间的实验,也就是在控制少了很多的目标词汇的情况下观察强化学习对NMT训练的提升效果,结果也正符合作者的猜想,减小了动作空间之后,强化学习对NMT的提升效果好了很多。
但是在实际情况中,改变词汇表是不太现实的,有限的词汇肯定无法表达完整的语义,为了达到减小动作空间而不减少词汇表中的词汇,作者提出一种更好的办法,就是在不改变词汇表的情况下降低动作空间的维度,把意思相近的词汇放到一块,而不把他们看成完全独立的个体。
为了验证这种方法的可行性,作者先进行了一个模拟实验,使用经典的强化学习任务,多臂老虎机问题,模拟这种降维后的大动作空间对模型训练过程产生的影响,结果也很不错。
有了前面这些实验做铺垫,最后作者将这种方法应用在了NMT模型上进行实验,最后也符合预期。
-05-
实验与分析
实验一 减小词汇量对强化学习训练效果的影响
作者在源语词汇量不变的前提下,分别设置不同规模的目标词汇,分别对17K~31K个词的 LTV 和1K个词的 STV 进行实验,测试不同大小的词汇量对训练结果的影响。
图3 LTV和STV的实验结果
图3是实验结果,可以看到对于STV,结合强化学习的训练比只使用MLE提升了平均将近1个 BLEU 值,而 LTV 只提升了0.2左右。
同时作者测试了使用RL训练对于gold token的影响,图4为使用强化训练后的gold token的概率 和没有使用强化学习 的差 ,这个图中,排名越高的gold token提升的概率越高,效果越好。我们观察rank 1,可以看到对于小规模词汇,强化学习训练是正提升,而大规模词汇的是负提升,这也验证了作者的猜想,大动作空间确实会让强化学习的效果变差。
图4 RL训练对于gold token的影响
如何降低词向量的维度
虽然降低词汇量会让强化学习的效果变好,但是在 NMT 模型中,降低词汇量并不太现实。前面可以看到虽然强化学习对于 STV 提升效果更大,但是大词汇量的翻译效果仍然更好,所以只能通过降低动作空间的有效维度来间接缩小动作空间。
图5 动作空间降维
我们把整个机器翻译神经网络简化成 函数,并设网络的参数为 ,然后我们把网络最后的 embedding 层和神经网络本身抽象成 和 两个部分,也就是说 是 和 的复合函数,对应的参数分别为 和 ,其中 函数将源语 和前面已经生成的序列 映射为一个 维向量,即词向量,然后 函数将词向量映射成 维的向量,对应词汇表中的词汇。
在训练时,加载预训练的MLE到h函数并且冻结参数,然后训练 函数,让 函数在 维向量动作空间中选择恰当的词向量。在这种情况下,右边的 充当了强化学习的环境, 充当了 agent 智能体,使用 BLEU 值作为评估标准,结合 MRT 方法进行训练。
因为 的维度往往远远小于 ,因此通过这个词向量,我们可以大大减小动作空间的维度。
从另外一个角度想,假设 token A 和 token B的语义十分相似,在这个训练过程中他们的词向量在空间中的位置很接近,因此在训练过程中不管模型选择了 token A 还是选择了 token B 模型的参数都会向差不多的方向收敛,这样训练的时候可以让模型更快的收敛。从这个角度,我们可以认为 token A 和 token B 在同一个维度上,相比于原来这两个 token 分别在不同的维度,实现了降维的效果。
实验二 使用多臂老虎机进行模拟实验
多臂老虎机问题
假设我们面前有 个老虎机,并且我们事先未知他们的真实盈利情况,我们需要选择其中一台老虎机拉动拉杆,并且根据前面拉动的拉杆和收益情况选择下一步拉动的拉杆或者选择停止游戏来最大化总收益。
在这个实验中,这 个老虎机是强化学习的环境,作者从一个多变量高斯分布中采样出一个随机的向量作为老虎机的输出,对于奖励,首先通过一个固定随机的非线性分类器选出一个动作作为目标动作,并使用 作为奖励,如果智能体选择了正确的动作, 值为1,否则为0, 服从一个均值为0,方差为0.1的正态分布,模拟随机波动,即:
实验结果
为了模拟大动作空间,作者在策略层面将动作空间复制了 倍,而这些复制的动作对于环境来说是等价的。
对于实验,作者设置了四组实验,分别对网络的最后一层做不同的处理。Full net
对最后一层不做任何处理,只是正常的初始化和训练,informative
在初始化时对K个动作初始化后复制了 倍,使具有相同意义的动作具有相同的初始值,复制的动作可以对应 NMT 模型中语义相似的词;Freeze
是对所有的动作进行随机初始化后冻结参数;Informative and freeze
在informative
的基础上冻结参数。
图6 模拟实验的实验结果
实验的结果图6中,可以看到Informative and freeze
最快收敛,其次Informative
和Full net
,而freeze
因为最后一层所有的参数都是随机初始化的并被冻结,所以训练没有任何效果。
可以得到结论将具有相似意义的动作放到一起,对动作空间进行降维确实可以加快强化学习的收敛,从另外一种角度来说,可以让训练效果更好。
实验三 NMT 实验
有了前面的实验作为铺垫,最终作者在 NMT 模型上进行了实验,并且同时使用 BLEU 指标和手动打分进行评估。
在 NMT 的实验中分别使用了两种方法进行测试,一种是对 embedding 层 使用预训练的模型并且冻结参数,另一种是使用预训练的模型对 embedding 层 进行初始化。
图7 使用 BLEU 评估的实验结果
图7中,MLE是只是用MLE进行训练,+RL
是同时使用了强化学习,+RL+FREEZE
是冻结了 MLE 在 embedding 层上的参数并使用强化学习进行训练,+BERT
是将 embedding 层改为 BERT 初始化后进行训练,+BERT+RL
是使用BERT
作为 embedding 层的同时使用强化学习进行训练,+BERT+RL+FREEZE
是将BERT
应用到 embedding 层并冻结其参数,之后使用强化学习进行训练,我们可以看到这一组在其中三组数据上的效果都是最好的。
图8 手动评估的实验结果
在图8手动打分评估的结果中,RL++
对应+BERT+RL+FREEZE
,可以看到它的效果普遍都要更好。然后对排名后的 gold token 进行统计发现,这种方法极大的提高了最好的 gold token 被选中的概率。
这些实验也验证了作者的猜想,包含语义的降维的动作空间会让强化学习在 NMT 模型上的学习效果更好。
图9 词向量的比较
如图9所示是作者对于动作空间的统计和比较,作者挑出了三组词,inflections pairs
是具有相同词根的词,synonyms pairs
是语义相似但是词根不同的词,random pairs
只是随机选的词。作者统计了他们在不同预训练词嵌入模型中词向量的余弦相似度。可以发现BERT
中的inflections pairs
的词向量余弦相似度较高,他们在动作空间中的分布较为集中;对于语义相似的词和随机的词余弦相似度都比较低,在空间中的分布更加分散;而MLE的词向量余弦相似度集中在0附近,说明词向量分布都分散。
因此这也可以解释了为什么BERT的效果更好,从另外的角度来说,使用维度更低的动作空间确实会让效果更好。
-06-
未来展望
未来的工作将提高 NMT 中 RL 训练的探索能力。实现这一目标的一个研究方向是使用 off-policy
方法。off-policy
方法,即从与目前优化的策略不同的策略中采样,在RL中很突出,并且在 policy gradient
方法的背景下也被研究。作者相信,采用这种方法来加强探索,结合他们提出的使用 target embedding
的方法,可以为 RL 在 NMT 中的应用,以及更广泛地在 TG 中应用,提供一条思路。
未来工作的另一个方向是改变网络的结构,以预测 维的连续行动,而不是离散的行动。这种方法可以直接减少行动空间的大小,而不限制可以预测的词的数量。
-07-
总结与思考
本文从 NMT 模型经常使用的 MLE 的缺点出发,引出 MRT 强化学习方法,为了找出强化学习在 NMT 上的短板,比较获得较好性能任务的强化学习方法和应用于 NMT 上的区别,大胆做出了动作空间影响了强化学习性能的猜测;在猜测的基础上辅以模拟实验加以验证,并在取得较好结果的基础上,将动作空间降维方法应用于 NMT 上并取得了较好的改进;最后通过分析改进前后的动作空间中词向量的相似度进一步验证了自己的猜想。
大规模的词表作为 NMT 任务的一大软肋,限制了模型的表达能力,如果无法从数目上降低词表的规模,那么从维度上降低词表的规模,将词表中意义相近的词进行聚类确实是一个相当不错的想法。
虽然 BERT 使词根相同的词的词向量余弦相似度更高,但是如果在 BERT 的基础上能进一步提升具有相同语义的词汇的余弦相似度,模型的效果可能会更加理想;甚至如果可以更加大胆地尝试将意义相反的词建立某种联系,说不定效果会更好?
参考文献:
[1] 维基百科:最大似然估计
[2] 肖桐 朱靖波,机器翻译:基础与模型,电子工业出版社, 2021.
[3] 维基百科:强化学习
[4] Minimum Risk Training for Neural Machine Translation
进NLP群—>加入NLP交流群