程序员学长 | 当 LSTM 遇上 Attention

最新推荐文章于 2025-05-08 17:39:37 发布

双木的木

最新推荐文章于 2025-05-08 17:39:37 发布

阅读量1.8k

点赞数 14

分类专栏： Transformer专栏深度学习拓展阅读文章标签： lstm 人工智能 rnn python 计算机视觉神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_xmj/article/details/140067275

版权

本文来源公众号“程序员学长”，仅用于学术分享，侵权删，干货满满。

原文链接：当 LSTM 遇上 Attention

今天我们一起来聊一下深度学习中的注意力（Attention）机制

注意力机制是深度学习中引入的一种技术，特别适用于序列到序列的任务（Sequence to Sequence，Seq2Seq）。通过引入注意力机制，Seq2Seq 模型能够在解码每个时间步时，动态地选择和关注输入序列中的不同部分，从而更好地捕捉输入序列的全局信息。

在讨论注意力机制之前，我们先来了解一下 Seq2Seq 模型。

Seq2Seq

序列到序列（Seq2Seq）模型是一种深度学习架构，广泛应用于将一个序列数据转换为另一个序列数据的任务中，例如机器翻译、自动问答、语音识别等。这种模型特别适用于输入序列和输出序列长度不固定的情况。

基本结构

序列到序列模型通常由两部分组成：编码器（Encoder）和解码器（Decoder）。

编码器

编码器的作用是接受输入序列，并将其转换成一个固定大小的状态向量（通常称为上下文向量）。这个向量旨在捕捉输入序列的关键信息。

在实现上，编码器通常是一个循环神经网络（RNN）或其变体，如长短期记忆网络（LSTM）或门控循环单元（GRU）。

关于 RNN、LSTM 以及 GRU 可以参考如下文章：程序员学长 | 快速学会一个算法，RNN-CSDN博客和程序员学长 | 快速学会一个算法模型，LSTM-CSDN博客。

解码器

解码器的任务是将编码器生成的状态向量转换为输出序列。它从编码器传递的上下文向量开始生成输出，并逐步生成输出序列中的每个元素。

解码器通常也是基于RNN、LSTM或GRU构建的，它在生成每个输出元素时会参考前一个元素的输出，以及编码器的上下文向量。

工作流程

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。