论文笔记--STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDIN

论文笔记--STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING

1. 文章简介

  • 标题:STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING
  • 作者:Wei Wang, Bin Bi, Ming Yan, Chen Wu, Zuyi Bao, Jiangnan Xia, Liwei Peng, Luo Si
  • 日期:2019
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了StructBERT,一种将语言结构融入于训练任务中的BERT[1]系列模型。为此,文章提出了两种训练目标:单词级别的训练目标和句子级别的训练目标。实验表明,StructBERT在包括情感分类、语义相似度分析、问答和自然语言推断等任务上均达到了SOTA。
  文章的整体架构如下
整体架构

3 文章重点技术

3.1 单词结构目标

  文章任务,原始的BERT模型不能显式的对单词顺序或者单词的高级依赖进行建模。给定一个序列的单词的随机顺序,一个好的语言模型应该可以从这些无序的单词中重构出原始的单词顺序。
  StructBERT给定的单词结构目标为:给定token的随机排序,我们要最大化将每个token放回到正确位置的似然函数,即 arg max ⁡ θ ∑ log ⁡ P ( p o s 1 = t 1 , … , p o s K = t K ∣ t 1 , … , t K , θ ) \argmax_{\theta} \sum \log P(pos_1=t_1, \dots, pos_K=t_K|t_1, \dots, t_K, \theta) θargmaxlogP(pos1=t1,,posK=tKt1,,tK,θ),其中 θ \theta θ为模型的参数, K K K表示打乱的单词序列的长度, t i ( i = 1 , … , K ) t_i(i=1, \dots, K) ti(i=1,,K)表示待归位的token。 K K K越大,模型要重新排序更长的句子,干扰项也越多; K K K越小,干扰项越少,但模型复原长文本的能力也越弱。文章选择使用 K = 3 K=3 K=3来增强模型的重构句子能力和鲁棒性。
  如上图所示,文章将BERT的MLM(Masked Language Model)目标和上述重构目标结合训练模型。举个例子,源句为"I need a blanket to cover the poor sheep",首先我们随机掩码词库中的15%的单词,假设blanket在词库中,则输入变为"I need a [MASK] to cover the poor sheep",然后随机抽取三元组"the poor sheep"并将其打乱为’the sheep poor",最终输入到模型的input为"I need a [MASK] to cover the sheep poor",期望模型给出的输出为"blanket, ,the, poor, sheep"4个token。

3.2 句子结构任务

  类似BERT的NSP任务,StructBERT希望给出可以学习到句子结构的训练目标。如上图所示,对任意句子 S 1 S_1 S1,我们在1/3时间选择 S 1 S_1 S1的下一句话作为 S 2 S_2 S2,1/3时间选择 S 1 S_1 S1的上一句话作为 S 2 S_2 S2,1/3时间随机从其它文档中采样一句话作为 S 2 S_2 S2。然后我们将 ( S 1 , S 2 ) (S_1, S_2) (S1,S2)用[SEP]分隔输入StructBERT,训练一个三分类任务(前一句 or 后一句 or 其它文档)

4. 文章亮点

  文章通过单词级别和句子级别的语言结构预测任务训练得到了InstructBERT模型,模型在实验的下游任务上几乎均达到了SOTA水平,如下表所示。类似文章的思想,如果我们可以找到其它方式更好地将语言结构作为目标训练模型,我们或许可以得到更强大BERT系列模型。
exp

5. 原文传送门

STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING

6. References

[1] 论文笔记–BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值