NLP(自然语言处理):Improving Neural Language Modeling via Adversarial Training 通过对抗噪音提升神经语言模型


前言

本篇文章来自Dilin Wang et al. 于2019年发表的文章:Improving Neural Language Modeling via Adversarial Training. 文章通过引入对抗模型的方式缓解了低频词的训练问题。


0. 摘要(Abstract)

近年来,深度学习的应用在语言模型的提升上带来了明显的提升。然而,在实现过程中,大规模的自然语言模型会出现过拟合的情况。在这篇文章中,我们提出了一个简单但高效的对抗训练机制对自然语言模型进行正则化处理。这项方法在训练时,于输出层的词嵌处引入了一个对抗噪音。我们展示出,在对对抗噪音的优化中存在一个简单的闭式解,因此,可以借此形式来设计一个简单有效的优化算法。理论上,我们发现了此算法可以显著的提高算法词嵌向量的多样性,以提高算法的鲁棒能力。从实验中,我们的算法将SOTA算法在PTB和Wikitext-2数据集上取得了46.01和38.07的复杂度。当我们的算法应用于机器翻译中时,可以在基于transformer模型获得一定提升,并在两项翻译数据集中均取得了BLEU的提升。

1. 引言(Introduction)

基于统计的语言模型中,机器翻译是一项测试模型的基本任务。其应用十分广阔,包括自动语音识别,机器翻译和机器视觉等。近年来,深度神经网络已经变成构建语言模型时最强劲的模型之一。而不幸的是,在训练大型RNN模型时,一项主要的挑战在于模型趋于过拟合,这样的问题通常都起源于RNN模型的高复杂度和自然语言输入的离散性。虽然许多正则化技术都用于解决此类问题,如early stop和dropout。但在现行的模型算法上,模型的训练集结果与测试集结果相差甚远,表明过拟合仍然是最常见出现的问题。

此篇文章中,我们设计了一种简单但十分有效的 极小化极大训练策略(minimax training strategy) 用于正则化。我们的想法是将一个对抗扰动加于语言模型的softmax层中的词嵌矩阵之上,并优化参数,以能最大化对抗扰动/噪音对模型的影响。值得注意的是,在我们的模型中,我们为这项扰动的优化设计了一个十分简单和高效的算法,可以让我们十分轻松的将其部署在传统模型中,而不带来额外的训练参数。

我们模型在理论上有一个十分复杂却讨好的理论特性,它可以高效促进词嵌向量的多样性,可以提升自然语言模型的泛化能力。在之前的工作中,为词嵌加入多样性这样的要求,通常通过添加额外的多样性惩罚项这种显性的方式完成。这种方式会影响优化中似然的计算,且在词表数很大时,计算成本很高。有趣的是,我们提出的这种对抗方法不需要添加额外的惩罚项,并且对比一般的正则方法,能更高效的计算。

从实验中,我们发现这种对抗算法能显著的提升在语言模型和机器翻译中SOTA算法的效果。对语言模型来说,我们建立了一个新兴的模型并在各个数据集均取得了SOTA的结果。

2. 背景:神经语言模型(Background: Neural Language Model)

一般来说,word-level的语言模型,其原理都基于条件向量的链式法则,即:

p ( x 1 : T = ∏ t = 1 T p ( x t ∣ x 1 : t − 1 ) ) , (1) p(x_{1:T}=\prod_{t=1}^T p(x_t|x_{1:t-1})), \tag1 p(x1:T=t=1Tp(xtx1:t1)),(1)

其中 x 1 : T = [ x 1 , x 2 , . . . , x T ] x_{1:T} = [x_1, x_2, ..., x_T] x1:T=[x1,x2,...,xT] 代表了一个长度为T的句子, x t ∈ V x_t \in \mathcal V xtV 是第t个词, V \mathcal V V代表了字典集。在现代的自然语言模型中,条件概率 p ( x t ∣ x 1 : t − 1 ) p(x_t|x_{1:t-1}) p(xtx1:t1)通常会被RNN所表征,其中每个时间步 t t t 的上下文表示为 x 1 : t − 1 x_{1:t-1} x1:t1,并且由一个隐层向量 h t ∈ R d h h_t \in \mathbb R^{d_h} htRdh 递归表征:

h t = f ( x t − 1 , h t − 1 ; θ ) , (2) h_t = f(x_{t-1}, h_{t-1};\bm\theta), \tag2 ht=f(xt1,ht1;θ),(2)

其中, f f f代表了一个非线性映射, θ \theta θ代表可训练的参数。接下来,条件概率就可以通过一个softmax方程进行表征:

p ( x t ∣ x 1 : t − 1 ; θ ; ω ) = S o f t m a x ( x t , ω , h t ) : = e x p ( ω x t T h t ) ∑ l = 1 ∣ V ∣ e x p ( w l T h t ) , (3) \begin{aligned} p(x_t|x_{1:t-1}; \bm\theta; \bm\omega) &= Softmax(x_t, \bm\omega, h_t) \\ &:= \frac{exp(\omega_{x_t}^\mathrm{T}h_t)}{\sum_{l=1}^{|\mathcal V|}exp(w_l^\mathrm{T}h_t)}, \tag3 \end{aligned} p(xtx1:t1;θ;ω)=Softmax(xt,ω,ht):=l=1Vexp(wlTht)exp(ωxtTht),(3)

其中 ω = ω i ⊂ R d \bm{\omega}={\omega_i} \subset \mathbb R^d ω=ωiRd 为Softmax的参数; ω i \omega_i ωi可以被看作词 i ∈ V i\in\mathcal V iV 的词嵌矩阵, h t h_t ht 是上下文 x 1 : t − 1 x_{1:t-1} x1:t1 的隐藏表达。内积 ω x t T h t \omega_{x_t}^\mathrm{T}h_t ωxtTht 衡量了词 x t x_t xt 与其之前的上下文语境 x 1 : t − 1 x_{1:t-1} x1:t1 的相似度,并使用softmax函数将其转化为一个概率值。

在实现过程中,非线性映射 f f f 由RNN的结构决定,如LSTM,GRU等。这种映射关系可能会用于另一种词嵌入向量集 ω i ′ ∈ R d ′ \omega_i' \in \mathbb R^{d'} ωiRd

f ( x t − 1 , h t − 1 ; θ ) = f R N N ( w x t − 1 ′ , h t − 1 ; θ ′ ) , f(x_{t-1}, h_{t-1}; \bm{\theta}) = f_{RNN}(w_{x_{t-1}}', h_{t-1}; \bm{\theta}'), f(xt1,ht1;θ)=fRNN(wxt1,ht1;θ),

其中 θ ′ \bm\theta' θ为RNN中 f R N N f_{RNN} fRNN的权重, θ = [ ω ′ , θ ′ ] \bm\theta=[\omega', \theta'] θ=[ω,θ],会和 ω \omega ω 一起训练。这里, ω i ′ \omega_i' ωi是词得嵌入矩阵,它会在输入段被模型训练,也就是我们说的输入词嵌矩阵。而 ω i \omega_i ωi 是输出词嵌矩阵。一种常用的技巧是令这两个词嵌矩阵为一个矩阵,我们称之为权重绑定(Weigh tying),其能减少训练所需的总参数量,并带来一定的提升。

在给定一系列句子为 { x 1 : T l } l \{x_{1:T}^l\}_l {x1:Tl}l时,参数 θ \bm\theta θ ω \bm\omega ω 会通过最大似然同时训练:

max ⁡ θ , ω { L ( θ , ω ) : = ∑ t , l l o g p ( x t l ∣ x 1 : t − 1 l ; θ , ω ) } . (4) \max_{\theta, \omega}\{\mathcal L(\bm\theta, \bm\omega):=\sum_{t, l}log p(x_t^l|x_{1:t-1}^l; \bm\theta, \bm\omega)\}. \tag4 θ,ωmax{L(θ,ω):=t,llogp(xtlx1:t1l;θ,ω)}.(4)

这样的优化同时训练了大量的参数 [ θ , ω ] [\bm\theta, \bm\omega] [θ,ω],训练同时包括了神经元中的参数,和词嵌矩阵中的参数,因此在实现中很容易引起过拟合。

3. 主要方法(Main Method)

基于在输出词嵌 ω i \omega_i ωi 中加入对抗扰动,我们提出了一个简单的算法可以有效地减缓深度自然语言模型中的过拟合问题(如式3所示)。我们的方法简单的出奇,对比于标准的最大似然训练,几乎没有引入额外的计算量,却在一些挑战中带来了巨大的提升。我们也将输出词嵌矩阵画了出来,以展示其提升了输出词嵌向量 { ω i } \{\omega_i\} {ωi} 的多样性。而这种多样性提升普遍能为结果的鲁棒性带来提升。

3.1. 对抗最大似然估计(Adversarial MLE)

我们的想法是在输出词嵌向量 { ω i } \{\omega_i\} {ωi} 的最大似然训练中引入一个对抗噪音:

max ⁡ θ , ω min ⁡ { δ j ; t , l } ∑ t , l l o g   p ( x t l ∣ x 1 : t − 1 l ; θ , { ω j + δ j ; t , l } ) s . t . ∣ ∣ δ j ; t , l ∣ ∣ ≤ ϵ / 2 , ∀ j , t , l , (5) \max_{\bm\theta, \bm\omega} \min_{\{\delta_{j;t,l}\}} \sum_{t,l}log\ p(x_t^l | x_{1:t-1}^l; \bm\theta, \{\omega_j + \delta_{j;t, l}\}) \\ s.t. ||\delta_{j;t,l}|| \le \epsilon/2, \forall j, t, l, \tag 5 θ,ωmax{δj;t,l}mint,llog p(xtlx1:t1l;θ,{ωj+δj;t,l})s.t.δj;t,lϵ/2,j,t,l,(5)

其中 δ j ; t , l \delta_{j;t,l} δj;t,l 是对于词 ω j , j ∈ V \omega_j, j \in \mathcal V ωj,jV 的一个对抗扰动项,其位置在对第 l l l 个句子的第 t t t 个位置。我们使用 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 来表示L2正则项; ϵ \epsilon ϵ 用于控制扰动项的大小。
上述方程有一个显著的特点:在固定模型参数 [ θ , ω ] [\bm\theta, \bm\omega] [θ,ω] 下,对抗扰动项 δ = { δ i ; t , l } \bm\delta=\{\delta_{i;t,l}\} δ={δi;t,l} 有一个简单的闭式解,通过这个闭式解,我们可以推导出一个简单有效的算法(算法1)来轮流优化 [ θ , ω ] [\bm\theta, \bm\omega] [θ,ω] δ \bm\delta δ

定义3.1. 对每个式(3)条件概率中的项 p ( x t = 1 ∣ x 1 : t − 1 ; θ , ω ) = S o f t m a x ( i , ω , h t ) p(x_t=1|x_{1:t-1};\bm\theta, \bm\omega) = Softmax(i, \bm\omega,h_t) p(xt=1x1:t1;θ,ω)=Softmax(i,ω,ht),式(5)中对抗扰动项的优化如下公式所示:

min ⁡ { δ j } j ∈ V e x p ( ( ω i + δ i ) T h ) ∑ j e x p ( ( w j + δ j ) T h )    s . t   ∣ ∣ δ j ∣ ∣ ≤ ϵ / 2 , ∀ j ∈ V . \min_{\{\delta_j\}_{j\in \mathcal V}} \frac{exp((\omega_i + \delta_i)^T h)}{\sum_j exp((w_j + \delta_j)^Th)}\ \ s.t\ ||\delta_j|| \le \epsilon/2, \forall j \in \mathcal V. {δj}jVminjexp((wj+δj)Th)exp((ωi+δi)Th)  s.t δjϵ/2,jV.

这就等同于只在 ω i \omega_i ωi 上添加大小为 ϵ \epsilon ϵ的扰动项:

min ⁡ δ i e x p ( ( ω i + δ i ) T h ) e x p ( ( ω i + δ i ) T h ) + ∑ j ≠ i e x p ( ω j T h )    s . t    ∣ ∣ ∣ δ i ∣ ∣ ≤ ϵ , \min_{\delta_i} \frac{exp((\omega_i + \delta_i)^Th)}{exp((\omega_i + \delta_i)^Th) + \sum_{j \not = i} exp(\omega_j^Th)}\ \ s.t\ \ |||\delta_i|| \le \epsilon, δiminexp((ωi+δi)Th)+j=iexp(ωjTh)exp((ωi+δi)Th)  s.t  δiϵ,

其又可以进一步等价于:
δ i ∗ = arg min ⁡ ∣ ∣ δ i ∣ ∣ ≤ ϵ ( ω i + δ i ) T h = − ϵ h / ∣ ∣ h ∣ ∣ . (6) \delta_i^* = \argmin_{||\delta_i|| \le \epsilon}(\omega_i + \delta_i)^Th = -\epsilon h/||h||. \tag6 δi=δiϵargmin(ωi+δi)Th=ϵh/h.(6)

至此,我们可以得出:

A d v S o f t ϵ ( i , ω , h ) : = min ⁡ ∣ ∣ δ i ∣ ∣ 2 ≤ ϵ S o f t m a x ( i , { ω i + δ i , ω j ≠ i } , h ) = e x p ( ω i T h − ϵ ∣ ∣ h ∣ ∣ ) e x p ( ω i T h − ϵ ∣ ∣ h ∣ ∣ ) + ∑ j ≠ i e x p ( ω j T h ) \begin{aligned} AdvSoft_\epsilon(i, \omega, h) :&= \min_{||\delta_i||_2 \le \epsilon} Softmax(i, \{\omega_i + \delta_i, \bm\omega_{j \not = i}\}, h) \\ &= \frac{exp(\omega_i^Th-\epsilon||h||)}{exp(\omega_i^Th - \epsilon ||h||) + \sum_{j \not = i} exp(\omega_j^Th)} \end{aligned} AdvSoftϵ(i,ω,h):=δi2ϵminSoftmax(i,{ωi+δi,ωj=i},h)=exp(ωiThϵh)+j=iexp(ωjTh)exp(ωiThϵh)

在实现过程中,我们会轮流优化参数 [ θ , ω ] [\bm\theta, \bm\omega] [θ,ω] δ = { δ i : t , l } \bm\delta=\{\delta_{i:t, l}\} δ={δi:t,l}. 固定 δ \bm\delta δ ,模型参数 [ θ , ω ] [\bm\theta, \bm\omega] [θ,ω] 使用梯度下降作为标准最大似然训练。而对 δ \bm\delta δ 的训练是在固定参数 [ θ , ω ] [\bm\theta, \bm\omega] [θ,ω]下,使用(6)式得到的结论进行优化,基本上没有引进额外的计算量。算法 1展示了这一过程。我们的算法可以视为 A d v S o f t ϵ ( i , ω , h ) AdvSoft_\epsilon(i, \bm\omega, h) AdvSoftϵ(i,ω,h)的近似梯度下降优化,但没有对正则项 ϵ ∣ ∣ h ∣ ∣ \epsilon||h|| ϵh 的反向传播。从实验上表明,如果对此正则项进行反向传播,反而得到的结果更差,在几个epoch后训练误差就开始离散(diverge)了。这可能是因为在 ϵ ∣ ∣ h ∣ ∣ \epsilon||h|| ϵh 的梯度计算中,为了提高 A d v S o f t ϵ ( i , ω , h ) AdvSoft_\epsilon(i, \bm\omega, h) AdvSoftϵ(i,ω,h), ∣ ∣ h ∣ ∣ ||h|| h的值被迫很大,而这与我们在实验中的设置相违背。

算法 1

3.2. 词嵌向量的多样性(Diversity of Embedding Vectors)

我们设计的对抗策略有一个十分有趣的特点:它可以被看作一个鼓励词嵌向量分布更离散的方法。我们将展示对于词嵌向量 ω i \omega_i ωi ,一旦存在一个上下文向量 h h h 使 ω i \omega_i ωi A d v S o f t AdvSoft AdvSoft 的计算中支配其他词(dominate),该算法是如何确保其分布与其他词向量离散,并保持 ϵ \epsilon ϵ 的最小距离。这个简单的性质可以由对抗设置的定义来推导得出:如果在 ω i \omega_i ωi 为原点, ϵ \epsilon ϵ 为半径的球中存在一个 ω j \omega_j ωj,则 ω i \omega_i ωi (和 ω j \omega_j ωj )永远不会主导支配,因为处于支配地位的那个词会被对抗的噪声所惩罚。

定义 3.2. 给定一个词嵌矩阵集合 ω = { ω i } i ∈ V \omega = \{\omega_i\}_{i \in \mathcal V} ω={ωi}iV,若存在一个向量 h ∈ R d h \in \mathbb R^d hRd,使 ω i \omega_i ωi ϵ \epsilon ϵ的对抗噪声下支配其他词, 则称 i ∈ V i \in \mathcal V iV 的这个词为 ϵ \epsilon ϵ -可识别,其中:

min ⁡ ∣ ∣ δ i ∣ ∣ ≤ ϵ ( ω i + δ i ) T h = ( ω i T h − ϵ ∣ ∣ h ∣ ∣ ) > ω j T h ,    ∀ j ∈ V , j ≠ i . \min_{||\delta_{i}|| \le \epsilon} (\omega_i + \delta_i)^T h = (\omega_i^Th - \epsilon||h||) > \omega_j^Th, \ \ \forall j \in \mathcal V, j \not = i. δiϵmin(ωi+δi)Th=(ωiThϵh)>ωjTh,  jV,j=i.

这时,我们可得 A d v S o f t ϵ ( i , ω , h ) ≥ 1 / ∣ V ∣ AdvSoft_\epsilon(i, \bm\omega, h) \ge 1/|\mathcal V| AdvSoftϵ(i,ω,h)1/V, 且尽管有对抗噪音,我们仍可以将 ω i \omega_i ωi 归类为语境 h h h 的目标词。

定理 3.3. 给定一系列词嵌向量 ω = { ω i } i ∈ V \bm\omega = \{\omega_i\}_{i \in \mathcal V} ω={ωi}iV,如果词 ω i \omega_i ωi ϵ \epsilon ϵ -可识别,则一定有:

min ⁡ j ≠ i ∣ ∣ ω j − ω i ∣ ∣ > ϵ , \min_{j \not =i} ||\omega_j - \omega_i|| > \epsilon, j=iminωjωi>ϵ,
此时 ω i \omega_i ωi 将与其他所有词保持最小为 ϵ \epsilon ϵ 的距离。

证明 如果存在 j ≠ i j \not = i j=i 使 ∣ ∣ ω j − ω i ∣ ∣ ≤ ϵ ||\omega_j - \omega_i|| \le \epsilon ωjωiϵ ,根据对抗优化的原理,我们可以得到:

ω j T h ≥ min ⁡ ∣ ∣ δ i ∣ ∣ ≤ ϵ ( ω i + δ i ) T h > ω j T h . \omega_j^T h \ge \min_{||\delta_i|| \le \epsilon} (\omega_i + \delta_i)^Th > \omega_j^Th. ωjThδiϵmin(ωi+δi)Th>ωjTh.

而形成了一个对立(反证)。 □ \square

注意,最大化对抗训练目标函数可以看作通过其上下文向量 h h h 来将每个 ω i \omega_i ωi 增强为 ϵ \epsilon ϵ-可识别,而也同时隐形的训练了词嵌的多样性,使其可以与其他词区分开来。我们应该注意到,在 定义3.2 中的上下文向量 h h h 不需要在训练集出现,虽然他很可能在训练时出现。

定理 3.4. 根据式(7)中的定义,我们可以得到:

A d v S o f t ϵ ( i , ω , h ) ≤ σ ( Φ ( i , ω , ∣ ∣ h ∣ ∣ ) ) , AdvSoft_{\epsilon}(i, \bm\omega, h) \le \sigma(\Phi(i, \bm\omega, ||h||)), AdvSoftϵ(i,ω,h)σ(Φ(i,ω,h)),

其中 σ ( t ) = 1 1 + e − t \sigma(t) = \frac{1}{1+e^{-t}} σ(t)=1+et1 是sigmoid函数,而 Φ ( i , ω , α ) \Phi(i, \bm\omega, \alpha) Φ(i,ω,α) 是一个“能量方程”,它衡量了从 ω i \omega_i ωi ω j \omega_j ωj 之间的距离, ∀ j ≠ i \forall j \not= i j=i

Φ ( i , ω , α ) = − l o g ∑ j ≠ i e x p ( − α ( ∣ ∣ ω i − ω j ∣ ∣ − ϵ ) ) ≤ α min ⁡ j ≠ i ( ∣ ∣ ω i − ω j ∣ ∣ − ϵ ) . \begin{aligned} \Phi(i, \bm\omega, \alpha) &= -log\sum_{j \not= i}exp(-\alpha(||\omega_i - \omega_j|| - \epsilon)) \\ &\le \alpha \min_{j \not = i}(||\omega_i - \omega_j|| - \epsilon). \end{aligned} Φ(i,ω,α)=logj=iexp(α(ωiωjϵ))αj=imin(ωiωjϵ).

证明 我们有

A d v S o f t ϵ ( i , ω , h ) = e x p ( ω i T h − ϵ ∣ ∣ h ∣ ∣ ) e x p ( ω i T h − ϵ ∣ ∣ h ∣ ∣ + ∑ j ≠ i e x p ( ω j T h ) ) = σ ( Ψ ( i , ω , h ) ) , \begin{aligned} AdvSoft_{\epsilon}(i, \bm\omega, h) &=\frac{exp(\omega_i^Th - \epsilon||h||)}{exp(\omega_i^Th - \epsilon||h|| + \sum_{j \not= i}exp(\omega_j^Th))} \\ &= \sigma(\Psi(i, \bm\omega, h)), \end{aligned} AdvSoftϵ(i,ω,h)=exp(ωiThϵh+j=iexp(ωjTh))exp(ωiThϵh)=σ(Ψ(i,ω,h)),
其中

Ψ ( i , ω , h ) = − l o g ∑ j ≠ i e x p ( ( ω j − ω i ) T h + ϵ ∣ ∣ h ∣ ∣ ) \Psi(i, \bm\omega, h) = -log\sum_{j \not= i}exp((\omega_j - \omega_i)^Th + \epsilon||h||) Ψ(i,ω,h)=logj=iexp((ωjωi)Th+ϵh)

注意到 ( ω j − ω i ) ≥ − ∣ ∣ ω j − ω i ∣ ∣ ⋅ ∣ ∣ h ∣ ∣ (\omega_j - \omega_i) \ge -||\omega_j - \omega_i|| \cdot ||h|| (ωjωi)ωjωih ,我们可知:

Ψ ( i , ω , h ) = log ⁡ ∑ j ≠ i e x p ( ( ω j − ω i ) T h + ϵ ∣ ∣ h ∣ ∣ ) ≤ − l o g ∑ j ≠ i e x p ( − ∣ ∣ ω j − ω i ∣ ∣ ⋅ ∣ ∣ h ∣ ∣ + ϵ ∣ ∣ h ∣ ∣ ) = Φ ( i , ω , ∣ ∣ h ∣ ∣ ) . □ \begin{aligned} \Psi(i, \bm\omega, h) &= \log\sum_{j \not= i}exp((\omega_j - \omega_i)^Th + \epsilon||h||) \\ & \le -log\sum_{j \not= i}exp(-||\omega_j - \omega_i|| \cdot ||h|| + \epsilon||h||) \\ & = \Phi(i, \bm\omega, ||h||). \qquad \square \end{aligned} Ψ(i,ω,h)=logj=iexp((ωjωi)Th+ϵh)logj=iexp(ωjωih+ϵh)=Φ(i,ω,h).

因此,最大化 A d v S o f t ϵ ( i , ω , h ) AdvSoft_{\epsilon}(i, \bm\omega, h) AdvSoftϵ(i,ω,h) 在我们算法中,同样也会最大化能量函数 Φ ( i , ω   ∣ ∣ h ∣ ∣ ) \Phi(i, \bm\omega\ ||h||) Φ(i,ω h) 来通过增加一个更大的惩罚项,来暴力地使 min ⁡ j ≠ i ( ∣ ∣ ω i − ω j ∣ ∣ ) ≥ ϵ \min_{j \not= i}(||\omega_i - \omega_j||) \ge \epsilon minj=i(ωiωj)ϵ

4. 相关工作与讨论(Related Works and Discussions)

这一部分内容包括:对抗训练,直接多样化正则(Diversity Regularization),大边界分类(Large-margin classification),LM的其他正则技术。可以自行查阅。

5. 实验结果(Empirical Results)

由于这里我们最关心的是算法结构,实验结果可以通过开头链接,去阅读实验设置和数据集选择。
最终实验在perplexity和BLEU上都有提升,说明其设置十分合理。具体的数值请参见原始文章。

6. 总结(Conclusions)

本篇文章展示了一个对抗MLE训练策略,其在自然语言模型中可以提升词嵌空间的多样性和结果的泛化能力。这种方法可以在所有MLE基础模型上直接使用而不带来额外的训练参数和计算。通过这个方法,许多语言模型和翻译模型都得到了提升,取得了SOTA的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值