作者:景
单位:燕山大学
前言
先说说通常意义上的预训练模型,以BERT为例,它采用大规模预料对Transformer编码器进行预训练,保存编码器参数后接下游任务,针对不同的下游任务采取不同的微调措施,例如接分类器、接解码器等。这么做的好处在于“对症下药”,但实则可以看做是妥协的产物——因为在谷歌刚提出BERT的时候,并没有针对“只编不解”这个问题的良好对策,bert在编码器堆叠了12层,这12层模型的参数经过了大规模语料的千锤百炼,对文本特征的捕获能力是极强的,但是其下游任务(这里特指需要解码的生成式任务)却只是经过了特定的小规模语料的训练,编码器和解码器对文本特征的捕获能力不一致,存在一种虎头蛇尾的现象。同时,bert的预训练任务——完形填空,也不一定适配下游的所有任务。
那么,有没有一种预训练方法,能够涵盖编码器、解码器,让编解码器拥有同等捕获文本特征的能力呢?假设有的话,不难想象,它在解决序列到序列这一类问题的时候,应当超越单纯的自编码模型和自回归模型。