深度学习-BART

fj1024

于 2024-07-15 09:54:00 发布

阅读量354

点赞数 8

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fj1024/article/details/140429458

版权

一、概要

BART（Bidirectional and Auto-Regressive Transformers）模型使用标准的基于Transformer的序列到序列结构，主要区别在于用GeLU（Gaussian Error Linerar Units）激活函数替换了原始结构中的 ReLU，以及参数根据正态分布进行初始化。BART 结合双向的 Transformer 编码器与单向的自回归Transformer解码器，通过对含有噪声的输入文本去噪重构进行预训练，是一种典型的去噪自编码器（Denoising autoencoder）。BART模型的基本结构如下图所示。

二、预训练

bart模型引入5种噪声：

1、单词掩码：与bert类似，随机采样一部分单词，并替换为mask。

2、单词删除：随即采样一部分单词删除。

3、句子排列变换：根据句号将输入文本为多个句子，并将句子顺序打乱，为了恢复句子顺序，模型对整段文本语义具备一定的理解能力。

4、文档旋转变换：随机选择输入文本中的一个单词，并旋转文档，使其以该单词作为开始。为了重构原始文本，模型需要从扰乱文本中找到原始文本的开头；

5、文本填充：随机采样多个文本片段，片段长度根据泊松分布（λ=3）进行采样得到。用单个掩码标记替换每个文本片段。当片段长度为0时，意味着插入一个掩码标记。要去除这类噪声，要求模型具有预测缺失文本片段长度的能力。

关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习-BART

BART 结合双向的 Transformer 编码器与单向的自回归Transformer解码器，通过对含有噪声的输入文本去噪重构进行预训练，是一种典型的去噪自编码器（Denoising autoencoder）。5、文本填充：随机采样多个文本片段，片段长度根据泊松分布（λ=3）进行采样得到。4、文档旋转变换：随机选择输入文本中的一个单词，并旋转文档，使其以该单词作为开始。3、句子排列变换：根据句号将输入文本为多个句子，并将句子顺序打乱，为了恢复句子顺序，模型对整段文本语义具备一定的理解能力。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。