算法面试之生成模型BART、T5

持续战斗状态

已于 2022-11-14 12:23:44 修改

阅读量1.8k

点赞数 1

分类专栏：算法面试NLP必备知识文章标签：算法深度学习 T5 Bart 自然语言处理

于 2022-09-08 17:43:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43499457/article/details/126768788

版权

算法面试之生成模型BART、T5

BART
T5
- 1.预训练
- 2.相对位置编码

BART

1.概述

使用标准的基于Transformer的序列到序列结构
主要区别在于用GeLU激活函数替换了原始结构中的ReLU
以及参数根据正态分布W(0,0.02)进行初始化
通过对含有噪声的输入文本去噪重构进行预训练，是一种典型的去噪自编码器

BART的预训练过程可以概括为以下两个阶段。首先，在输入文本中引入噪声，并使用双向编码器编码扰乱后的文本；然后，使用单向的自回归解码器重构原始文本。需要注意的是，编码器的最后一层隐含层表示会作为“记忆”参与解码器每一层的计算。BART模型考虑了多种不同的噪声引入方式，其中包括BERT模型使用的单词掩码。需要注意的是，BERT模型是独立地预测掩码位置的词，而BART模型是通过自回归的方式顺序地生成。

2.预训练任务

BART模型考虑了以下五种噪声引入方式：
(1)单词掩码
与BERT模型类似，在输入文本中随机采样一部分单词，并替换为掩码标记（如[MASK]):
(2)单词删除
随机采样一部分单词并删除。要处理这类噪声，模型不仅需要预测缺失的单词，还需要确定缺失单词的位置；
(3)句子排列变换
根据句号将输入文本分为多个句子，并将句子的顺序随机打乱。为了恢复句子的顺序，模型需要对整段输入文本的语义具备一定的理解能力；
(4)文档旋转变换
随机选择输入文本中的一个单词，并旋转文档，使其以该单词作为开始。为了重构原始文本，模

最低0.47元/天解锁文章

持续战斗状态

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
算法面试之生成模型BART、T5

Transformer Encoder-Decoder 模型；BERT-style 式的破坏方法；Replace Span 的破坏策略；15 %的破坏比；3 的破坏小段长度。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

持续战斗状态 很高兴可以帮到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。