预训练的启蒙：浅谈BERT、RoBERTa、ALBERT、T5

Luna_M

已于 2024-04-11 16:14:47 修改

阅读量1.1k

点赞数 15

分类专栏：深度学习理论知识文章标签： bert 人工智能深度学习

于 2024-04-10 20:04:08 首次发布

本文链接：https://blog.csdn.net/baidu_33000721/article/details/137605533

版权

本文深入探讨了预训练模型的演变，从BERT到RoBERTa、ALBERT和T5。BERT通过Transformer的双向训练解决了RNN/LSTM的长期依赖问题，其预训练任务包括MLM和NSP。RoBERTa通过更大数据集、更长训练时间和动态MASK策略提升性能。ALBERT通过参数共享和因式分解嵌入参数实现轻量化，而T5提出万物皆可Seq2Seq，统一了NLP任务格式。这些模型的进展揭示了预训练在NLP领域的关键作用。

摘要由CSDN通过智能技术生成

Transformer揭开预训练序幕

为什么RNN/LSTM需要从头训练？

预训练在NLP领域之所以主要集中在前馈神经网络和Transformer架构上，而不是RNN和LSTM，主要是由于几个关键因素：模型性能、并行计算能力和训练效率。我们来逐一探讨这些因素。

模型性能和长期依赖问题
- 长期依赖问题：在处理长序列数据时，RNN和LSTM虽然理论上可以捕捉长距离的依赖关系，但在实践中往往难以学习到这些依赖。尽管LSTM通过引入门控机制改善了这一点，但它们在处理非常长的依赖关系时仍然存在挑战。
- Transformer的优势：相比之下，Transformer架构通过自注意力机制（Self-Attention）能够直接计算序列内任意两个位置之间的关系，极大地改善了模型处理长期依赖问题的能力。这使得Transformer在各种NLP任务中表现优异，特别是在需要理解长文本上下文的任务中。
并行计算能力
- 并行化处理：RNN和LSTM由于其循环性质，每个时间步的计算依赖于前一个时间步的输出，这限制了它们的并行计算能力。而Transformer完全基于注意力机制，不依赖于序列中的时间步顺序，因此可以实现高效的并行化处理。
- 训练效率：并行计算能力的提升直接影响到模型的训练效率。在使用相同的计算资源下，Transformer可以在更短的时间内处理更多的数据，加速了模型的训练过程，这对于预训练尤其重要，因为预训练通常需要在非常大的数据集上进行。
数据规模
- 大规模预训练的需求：预训练模型的成功很大程度上依赖于模型在大规模数据集上的训练能力。Transformer架构由于其并行化优势，能够有效地在大规模数据集上进行训练，这使得其更适合于预训练场景。
- 数据利用率：与RNN和LSTM相比，Transformer能够更有效地利用大量无标注数据进行预训练。例如，BERT等模型通过掩码语言模型（Masked Language Model）等预训练任务，能够学习到丰富的语言表示，这对于后续的微调任务非常有益。

BERT

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年提出的一种预训练语言表示模型，它在自然语言处理（NLP）领域引起了巨大的影响。BERT的核心创新在于它采用了Transformer架构的编码器，并且是第一个在大规模语料库上进行双向训练的语言模型，能够捕捉到丰富的上下文信息。

核心特点

双向训练：BERT的最大创新之一是其双向训练策略。传统的语言模型通常是单向的，即只能从左到右或从右到左建模语言。相比之下，BERT通过预训练任务学习了在任何给定的上下文中理解单词的能力，无论这个上下文出现在单词的左边还是右边。
预训练和微调：BERT模型首先在大规模的语料库上进行预训练，学习通用的语言表示，然后可以通过微调（Fine-tuning）过程适应各种具体的下游任务，如文本分类、问答、命名实体识别等。

BiLSTM的双向性

BiLSTM和BERT在处理双向信息的方式上确实存在本质区别：

分离的前向和后向路径：在BiLSTM中，双向性是通过将一个前向LSTM（处理序列的正向信息）和一个后向LSTM（处理序列的反向信息）的输出拼接或合并来实现的。虽然这允许模型同时考虑到一个词的前文和后文上下文，但前向和后向LSTM是独立处理的，它们在计算时并不共享信息。
信息融合：前向和后向的信息在每个时间步之后才会被结合起来，用于最终的决策或预测，这意味着前向路径在计算时并没有利用到后向的信息，反之亦然。

BERT的双向性

全面的双向Attention：BERT使用的Transformer架构通过自注意力（Self-Attention）机制，使得在编码每个词时，都能考虑到句子中所有其他词的信息。这种方式不仅包括词与词之间的直接关系，还能捕捉更复杂的依赖关系。
真正的全双向上下文：由于BERT的每个词都是在考虑完整句子上下文的基础上被编码的，这确保了在预测任何一个词时，模型都已经“看到”了它的前文和后文信息。这种全双向上下文的处理方式是真正意义上的双向，而不仅仅是信息的拼接。

因此，可以说BERT通过其自注意力机制实现了更深层次的双向信息处理，每个词的表示都是在充分考虑整个句子上下文的基础上生成的，这超越了传统BiLSTM的双向处理方式，提供了更丰富和准确的语言表示。这种全双向的特性是BERT及其变体在各种NLP任务上取得成功的关键因素之一。