paper :
《Unified Language Model Pre-training for Natural Language Understanding and Generation》
模型名称:UNILM (UNIfied pre-trained Language Model ,统一预训练语言模型)
模型介绍:
模型使用的是transformer encoder架构,采用三种不同的语言模型来预训练
预训练任务:MLM
三种不同的语言模型,通过不同的attention来实现
unidirectional LM:单向语言模型,包括Left-to-Right LM 和 Right-to-Left LM
bidirectional LM:双向语言模型
sequence-to-sequence LM:seq2seq 语言模型
我们来讲讲这个mask是如何理解的,如下图,白色代表可以关注到,黑色代表被遮住。第一行代表第一个token只能关注到他自己本身,第二行代表第二个token可以关注到他本身以及他左边的token。以此类推。这就是L2R LM。其他同理
下游任务:NLU(natural language understanding) 和 NLG (natural language generation)