一、Transformer概览:抛弃循环,拥抱注意力
传统RNN及其变体(如LSTM、GRU)处理序列数据时存在顺序依赖的瓶颈:必须逐个处理序列元素,难以并行计算,且对长程依赖建模能力较弱。Transformer的革命性在于:
-
完全基于自注意力机制:直接计算序列中任意两个元素之间的关系强度,无视距离。
-
并行化计算:序列所有元素同时参与计算,极大提升训练效率。
-
堆叠层结构:通过多层堆叠(通常6层或更多),逐步提取更复杂的特征和表示。
Transformer的整体架构图是其精髓的直观体现:
输入序列 -> [编码器] -> 中间表示 -> [解码器] -> 输出序列
(N个相同层) (N个相同层)
-
编码器:负责理解和压缩输入序列(如源语言句子),将其转化为富含上下文信息的中间表示