经典论文阅读(6)——ERNIE

 

在本文中,我们提出了一个称为ERNIE的模型,通过知识mask策略实现知识整合。除了基本的mask策略外,我们还使用了两种知识mask:短语级mask和实体级mask。

Transformer编码器

ERNIE使用多层Transformer编码器作为基本的encoder。Transformer可以通过自我注意捕获句子中每个token的上下文信息,并生成一系列上下文embedding。

知识集成

提出了一种多阶段知识mask策略,将短语级和实体级知识整合到语言表示中,而不是直接加入知识embedding。

 

基本级mask

英语的基本语言单位是单词,中文的基本语言单位是汉字。随机屏蔽15%的基本语言单位并通过上下文对屏蔽的基本语言单位进行预测。由于它是在基本语言单位的随机mask上进行训练,高层次的语义知识很难被完全建模。

短语级mask

短语是一组词或字符。对于英语,使用词法分析和组件工具来提取句子中短语的边界,在汉语中使用分词工具来获取词/短语信息。在本阶段随机选择句子中的短语进行mask并预测同一短语中的所有基本单元。

实体级mask

与短语mask阶段一样,我们首先分析句子中的命名实体,然后mask并预测实体中的所有槽。

实验

ERNIE使用12个编码层,768的隐藏单元和12个注意力头。ERNIE采用异构语料库进行预训练,包括中文维基,百度百科,百度新闻,百度贴吧。

结论

ERNIE在5个中文语言处理任务中表现都比BERT好,我们证实了知识整合和对异构数据的预训练都能使模型获得更好的语言表示。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值