文本填充:采样多个文本段,文本段长度取决于泊松分布 (λ = 3)。用单个掩码 token 替换每个文本段。长度为 0 的文本段对应掩码 token 的插入。
句子排列变换:按句号将文档分割成多个句子,然后以随机顺序打乱这些句子。
文档旋转:随机均匀地选择 token,旋转文档使文档从该 token 开始。该任务的目的是训练模型识别文档开头。
BART模型其实就是transformer的架构,只是有不同的预训练构造方式而已
文本填充:采样多个文本段,文本段长度取决于泊松分布 (λ = 3)。用单个掩码 token 替换每个文本段。长度为 0 的文本段对应掩码 token 的插入。
句子排列变换:按句号将文档分割成多个句子,然后以随机顺序打乱这些句子。
文档旋转:随机均匀地选择 token,旋转文档使文档从该 token 开始。该任务的目的是训练模型识别文档开头。
BART模型其实就是transformer的架构,只是有不同的预训练构造方式而已