StructBERT
论文:《STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING》
论文地址:https://arxiv.org/pdf/1908.04577
作者/机构:阿里巴巴
年份:2019.9
StructBERT 是将语言结构信息融入进Bert,来提高其性能,其主要是增加了两个基于语言结构的训练目标:词序(word-level ordering)重构任务和句序(sentence-level ordering)判定任务。
StructBERT在于Bert现有的预训练任务MLM和NSP的基础上,新增了两个预训练任务:词序重建和句序判定任务,分别如下:
(1)词序重构
从未被mask的序列中随机选择部分子序列(使用超参数K来确定子序列长度,论文选择的K值=3,即trigram),将子序列中的词序打乱,让模型重建原来的词序。作者从重新排列的子序列中选择5%,进行词序的打乱。
(2)句序判定
给定句子对(S1, S2),判断S2是否是S1的下一个句子,或上一个句子,或毫无关联的句子(从NSP的0/1分类变成了三分类问题)。采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对。
更多NLP相关技术干货,请关注我的微信公众号【NLP有品】