CNN+LSTM+Attention强强结合！创新性拉满！内附创新点

本文链接：https://blog.csdn.net/d22800/article/details/145770416

CNN+LSTM+Attention是一种深度学习模型，它结合了卷积神经网络（CNN）、长短期记忆网络（LSTM）和注意力机制（Attention）的优势，用于处理序列数据和时间序列预测任务。这种模型因其强大的特征提取和序列建模能力，被广泛应用于各种时空数据的预测和分析任务

今天就这两种技术整理出了论文+开源代码，以下是精选部分论文

更多论文料可以关注：AI科技探寻，发送：111 领取更多[论文+开源码】

论文1

Image Captioning with Deep Bidirectional LSTMs

使用深度双向LSTM的图像描述

方法：

创新点：

深度双向LSTM模型：提出了两种新型的深度双向变体模型，通过不同方式增加非线性转换的深度，以学习层次化的视觉-语言嵌入，这在图像描述生成和图像-句子检索任务中取得了竞争性的性能，即使没有集成额外机制（例如目标检测、注意力模型等）。
数据增强技术：提出了新的数据增强技术，如多裁剪、多尺度和垂直镜像，这些技术可以增加图像-句子训练对的数量，从而有效缓解过拟合问题，使训练对数量增加约40倍。
性能提升：在三个基准数据集（Flickr8K、Flickr30K和MSCOCO）上的评估表明，双向LSTM模型在图像描述生成任务上达到了与最新技术相当的表现，并且在检索任务上显著优于最近的方法。

Stacked Attention Networks for Image Question Answering

用于图像问题回答的堆叠注意力网络

方法：

创新点：

多层注意力机制：提出了一个多层SAN，它通过多次查询图像来逐步定位相关视觉区域并推断答案，这在图像问题回答（QA）中需要多步推理。
性能提升：在四个图像QA数据集上的实验表明，所提出的SAN显著优于以前的最先进方法。具体来说，在DAQUAR-ALL数据集上，两层SAN(2, CNN)模型比其他最佳基线模型（如IMG-CNN和Ask-Your-Neurons）在准确率上分别提高了5.9%和7.6%。
可视化分析：通过可视化SAN的不同注意力层的输出，展示了SAN如何采取多步骤逐步集中注意力在相关视觉线索上的过程，这有助于理解模型是如何工作的，并证明了多步推理的有效性。

Transformer in Transformer as Backbone for Deep Reinforcement Learning

作为深度强化学习主干的Transformer内嵌Transformer

方法：

纯Transformer基础网络：提出基于纯Transformer的网络设计，用于深度强化学习（Deep RL），旨在提供适用于在线和离线设置的即用型主干网络。
内部Transformer：用于处理单个观测，学习包含重要空间信息的观测表示。
外部Transformer：负责处理观测历史，捕捉跨多个连续观测的重要时间信息。
Transformer内嵌Transformer（TIT）主干：通过级联两个Transformer来提取空间-时间表示，以进行更好的决策。

创新点：

纯Transformer主干网络：首次展示了纯Transformer可以作为标准在线和离线RL方法（例如PPO和CQL）的主干，只要正确设计主干网络。这类似于ViT证明了基于纯Transformer的网络可以很好地执行计算机视觉任务。
TIT主干网络：提出了两种TIT主干网络，实验表明最佳模型不仅在在线和离线RL设置中，而且在最近提出的决策Transformer的监督学习范式中，都达到了与几个强基线相当的或更好的性能。
性能提升：在Flickr8K数据集上，Bi-LSTM模型在BLEU-N评估中达到了61.9/43.3/29.7/20.0的成绩，而使用VggNet的Bi-LSTM模型在MSCOCO数据集上达到了67.2/49.2/35.2/24.4的成绩，显示出显著的性能提升。
多角度分析：通过从多个方面分析主干网络，提供了对所提方法的深入理解。

Translating Math Formula Images to LaTeX Sequences Using Deep Neural Networks with Sequence-level Training

使用具有序列级训练的深度神经网络将数学公式图像翻译成LaTeX序列

方法：

创新点：

2D位置编码：提出了一种新的2D位置编码技术，以丰富表示空间局部性信息，帮助模型更好地区分数学符号的二维空间关系。
序列级训练目标：提出了基于BLEU分数的序列级训练目标函数，这可以更好地捕捉LaTeX序列中不同标记之间的相互关系。
消除暴露偏差问题：通过在序列级训练期间关闭解码器中的反馈回路，即在每个时间步骤中输入预测的标记而不是真实的标记，从而消除了暴露偏差问题。
性能提升：在IM2LATEX-100K数据集上训练和评估模型，显示出在基于序列和基于图像的评估指标上都达到了最先进的性能，例如BLEU分数达到了90.28%，图像编辑距离达到了92.28%。