深度学习系列30：BART模型

最新推荐文章于 2024-06-07 16:15:08 发布

IE06

最新推荐文章于 2024-06-07 16:15:08 发布

阅读量3.7k

点赞数 1

分类专栏：深度学习系列文章标签：深度学习 transformer 自然语言处理

本文链接：https://blog.csdn.net/kittyzc/article/details/124926125

版权

深度学习系列专栏收录该内容

70 篇文章 155 订阅

订阅专栏

1. 模型介绍

BART（Bidirectional and Auto-Regressive Transformers，双向自回归变压器）用于多模态中将文字转为图像。
参考网上开源的中文bart地址：https://huggingface.co/uer/bart-base-chinese-cluecorpussmall，下面是个使用例子

from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
tokenizer = BertTokenizer.from_pretrained("uer/bart-base-chinese-cluecorpussmall")
model = BartForConditionalGeneration.from_pretrained("uer/bart-base-chinese-cluecorpussmall")
text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
text2text_generator("中国的首都是[MASK]京", max_length=50, do_sample=False)

模型简要描述如下：
在这里插入图片描述
BART模型架构与transformer相同，但参考GPT模型，将原有ReLU激活函数变成了GeLUs函数。
在预训练时，首先使用多种噪声对原始文本进行破坏，然后通过seq2seq模型重建原始文本。
噪声方式如下：

BART模型最终使用了Text Infilling策略和Sentence Shuffling策略的组合，其中屏蔽每个文本中30%的token，并排列所有的句子。
损失函数：还原后的文本与原始文本的交叉熵

2. 模型功能

在这里插入图片描述

2.1 序列分类任务

如上图(a)，将相同的输入，输入到encoder和decoder中，最后将decoder的最后一个隐藏节点作为输出，输入到分类层（全连接层）中，获取最终的分类的结果。其中，decoder的最后一个隐藏节点是一个特殊标记，相当于BERT模型中的[CLS]

2.2 序列生成任务

由于BART模型是在Seq2Seq模型结构下的的预训练模型，本身就拥有自回归解码器，因此可以直接对生成任务进行微调。将源文本输入到encoder中，将待生成的目标文本输入到decoder中，进行自回归生成。

2.3 翻译

由于预训练过程是用同语言进行训练的，但是机器翻译是由一种语言翻译成另一种语言，因此BART模型在进行机器翻译任务时，将encoder的Embedding层进行随机初始化，即更换字典，重新训练另一种语言的表征。

IE06

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习系列30：BART模型

BART（Bidirectional and Auto-Regressive Transformers，双向自回归变压器）用于多模态中将文字转为图像。参考网上开源的中文bart地址：https://huggingface.co/uer/bart-base-chinese-cluecorpussmall，下面是个使用例子模型简要描述如下：BART模型架构与transformer相同，但参考GPT模型，将原有ReLU激活函数变成了GeLUs函数。在预训练时，首先使用多种噪声对原始文本进行破坏，然后通过
复制链接

扫一扫

专栏目录