如果说RNN和LSTM是序列建模的“古典时期”,那么Transformer的诞生则开启了“现代时期”。它不仅是当前自然语言处理领域的绝对基石,也在计算机视觉、音频处理等领域展现出强大潜力。
阶段一:Transformer 架构
1. 为什么需要Transformer?—— RNN/LSTM的瓶颈
尽管LSTM很好地解决了RNN的长期依赖问题,但它仍然存在一些固有的、难以克服的瓶颈:
-
顺序处理的局限性: RNN/LSTM必须按时间步顺序处理序列。在计算第
t个元素时,必须等待前t-1步计算完成。这导致无法进行有效的并行计算,训练速度非常慢,尤其是在处理长序列时。 -
长距离信息衰减: 虽然LSTM有细胞状态,但信息在长序列中逐步传递,仍然可能存在衰减或混淆。模型难以真正“记住”成百上千步之前的关键信息。
-
计算复杂度高: 处理一个长度为
n的序列,RNN/LSTM需要经历n个时间步的操作。
Transformer 的提出(论文:《Attention Is All You Need》,2017)旨在彻底抛弃循环结构,完全依赖一种称为 自注意力(Self-Attention) 的机制来捕捉序列内部的依赖关系,从而一举解决了上述问题。
2. Transformer 的核心思想
Transformer 的核心思想是:与其一步步地顺序处理序列,不如让序列中的每个元

最低0.47元/天 解锁文章
787

被折叠的 条评论
为什么被折叠?



