ACL2022 | DictBERT:通过低频词典增强预训练模型表征方法

写在前面

大家好,我是刘聪NLP。

今天给大家带来一篇acl2022通过低频词典增强预训练模型表征论文-Dict-BERT,全名为《Dict-BERT: Enhancing Language Model Pre-training with Dictionary》

paper地址:https://aclanthology.org/2022.findings-acl.150.pdf

模型

Dict-BERT为了解决BERT模型对语料中低频词(rare words)的不敏感性,通过在预训练中加入低频词词典&对应低频词定义来增强训练语言模型,并且引入了针对低频词的词语级别和句子级别的两个特殊任务。

如上图所示:

  • Task1(MLM):原始预训练语言模型任务;

  • Task2(MIM):针对低频词的词语级别的对比学习任务,是被[mask]的低频词,距离正例中的低频词比负例中的噪声词更近;

  • Task3(DD):针对低频词的句子级别的判别任务,是判断句子是低频词的定义还是噪声词的定义。

预训练时,三个loss结合进行联合训练。

在finetuning阶段,为了使用低频词词典,引入了Knowledge-visible Attention,防止引入的低频词定义文本对原始文本产生干扰,如下图所示,

结果如下表所示: 领域自适应预训练,结果如下表所示: 针对不同低频词率和Knowledge注意力的效果,结果如下表所示:

总结

Dict-BERT的一个优点是在下游中可以动态调整低频词的词汇量,但是在真实场景中如何获取低频词的定义解释是一个问题。

整理不易,请多多点赞,关注,有问题的朋友也欢迎加我微信「logCong」、公众号「NLP工作站」、知乎「刘聪NLP」私聊,交个朋友吧,一起学习,一起进步。

我们的口号是“生命不止,学习不停”。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值