“核心技术与框架”阶段一:Transformer架构

如果说RNN和LSTM是序列建模的“古典时期”,那么Transformer的诞生则开启了“现代时期”。它不仅是当前自然语言处理领域的绝对基石,也在计算机视觉、音频处理等领域展现出强大潜力。


阶段一:Transformer 架构

1. 为什么需要Transformer?—— RNN/LSTM的瓶颈

尽管LSTM很好地解决了RNN的长期依赖问题,但它仍然存在一些固有的、难以克服的瓶颈:

  1. 顺序处理的局限性: RNN/LSTM必须按时间步顺序处理序列。在计算第 t 个元素时,必须等待前 t-1 步计算完成。这导致无法进行有效的并行计算,训练速度非常慢,尤其是在处理长序列时。

  2. 长距离信息衰减: 虽然LSTM有细胞状态,但信息在长序列中逐步传递,仍然可能存在衰减或混淆。模型难以真正“记住”成百上千步之前的关键信息。

  3. 计算复杂度高: 处理一个长度为 n 的序列,RNN/LSTM需要经历 n 个时间步的操作。

Transformer 的提出(论文:《Attention Is All You Need》,2017)旨在彻底抛弃循环结构,完全依赖一种称为 自注意力(Self-Attention) 的机制来捕捉序列内部的依赖关系,从而一举解决了上述问题。

2. Transformer 的核心思想

Transformer 的核心思想是:与其一步步地顺序处理序列,不如让序列中的每个元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿南0125

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值