深度学习系列30:BART模型

1. 模型介绍

BART(Bidirectional and Auto-Regressive Transformers,双向自回归变压器)用于多模态中将文字转为图像。
参考网上开源的中文bart地址:https://huggingface.co/uer/bart-base-chinese-cluecorpussmall,下面是个使用例子

from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
tokenizer = BertTokenizer.from_pretrained("uer/bart-base-chinese-cluecorpussmall")
model = BartForConditionalGeneration.from_pretrained("uer/bart-base-chinese-cluecorpussmall")
text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
text2text_generator("中国的首都是[MASK]京", max_length=50, do_sample=False)

模型简要描述如下:
在这里插入图片描述
BART模型架构与transformer相同,但参考GPT模型,将原有ReLU激活函数变成了GeLUs函数。
在预训练时,首先使用多种噪声对原始文本进行破坏,然后通过seq2seq模型重建原始文本。
噪声方式如下:
在这里插入图片描述
BART模型最终使用了Text Infilling策略和Sentence Shuffling策略的组合,其中屏蔽每个文本中30%的token,并排列所有的句子。
损失函数:还原后的文本与原始文本的交叉熵

2. 模型功能

在这里插入图片描述

2.1 序列分类任务

如上图(a),将相同的输入,输入到encoder和decoder中,最后将decoder的最后一个隐藏节点作为输出,输入到分类层(全连接层)中,获取最终的分类的结果。其中,decoder的最后一个隐藏节点是一个特殊标记,相当于BERT模型中的[CLS]

2.2 序列生成任务

由于BART模型是在Seq2Seq模型结构下的的预训练模型,本身就拥有自回归解码器,因此可以直接对生成任务进行微调。将源文本输入到encoder中,将待生成的目标文本输入到decoder中,进行自回归生成。

2.3 翻译

由于预训练过程是用同语言进行训练的,但是机器翻译是由一种语言翻译成另一种语言,因此BART模型在进行机器翻译任务时,将encoder的Embedding层进行随机初始化,即更换字典,重新训练另一种语言的表征。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值