CNN+LSTM+Attention强强结合!创新性拉满!内附创新点

CNN+LSTM+Attention是一种深度学习模型,它结合了卷积神经网络(CNN)、长短期记忆网络(LSTM)和注意力机制(Attention)的优势,用于处理序列数据和时间序列预测任务。这种模型因其强大的特征提取和序列建模能力,被广泛应用于各种时空数据的预测和分析任务

今天就这两种技术整理出了论文+开源代码,以下是精选部分论文

 更多论文料可以关注AI科技探寻,发送:111  领取更多[论文+开源码】

  

论文1

Image Captioning with Deep Bidirectional LSTMs

使用深度双向LSTM的图像描述

方法:

  • 深度卷积神经网络(CNN):构建在深度CNN之上,用于提取图像特征。

  • 两个独立的长短期记忆网络(LSTM):一个用于编码图像特征,另一个用于编码句子特征。

  • 深度双向LSTM(Bi-LSTM)模型:利用历史和未来上下文信息在高级语义空间中学习长期视觉-语言交互。

  • 数据增强技术:如多裁剪、多尺度和垂直镜像,用于防止在训练深度模型时过拟合。

    创新点:

    1. 深度双向LSTM模型:提出了两种新型的深度双向变体模型,通过不同方式增加非线性转换的深度,以学习层次化的视觉-语言嵌入,这在图像描述生成和图像-句子检索任务中取得了竞争性的性能,即使没有集成额外机制(例如目标检测、注意力模型等)。

    2. 数据增强技术:提出了新的数据增强技术,如多裁剪、多尺度和垂直镜像,这些技术可以增加图像-句子训练对的数量,从而有效缓解过拟合问题,使训练对数量增加约40倍。

    3. 性能提升:在三个基准数据集(Flickr8K、Flickr30K和MSCOCO)上的评估表明,双向LSTM模型在图像描述生成任务上达到了与最新技术相当的表现,并且在检索任务上显著优于最近的方法。

      图片

    论文2

    Stacked Attention Networks for Image Question Answering

    用于图像问题回答的堆叠注意力网络

    方法:

    1. 语义表示:使用问题的语义表示作为查询,搜索与答案相关的图像区域。

    2. 多层SAN:开发了一个多层SAN,通过多次查询图像逐步推断答案。

    3. 视觉注意力层:通过多步推理定位与问题相关的图像区域,用于答案预测。

    创新点:

    1. 多层注意力机制:提出了一个多层SAN,它通过多次查询图像来逐步定位相关视觉区域并推断答案,这在图像问题回答(QA)中需要多步推理。

    2. 性能提升:在四个图像QA数据集上的实验表明,所提出的SAN显著优于以前的最先进方法。具体来说,在DAQUAR-ALL数据集上,两层SAN(2, CNN)模型比其他最佳基线模型(如IMG-CNN和Ask-Your-Neurons)在准确率上分别提高了5.9%和7.6%。

    3. 可视化分析:通过可视化SAN的不同注意力层的输出,展示了SAN如何采取多步骤逐步集中注意力在相关视觉线索上的过程,这有助于理解模型是如何工作的,并证明了多步推理的有效性。

      图片

    论文3

    Transformer in Transformer as Backbone for Deep Reinforcement Learning

    作为深度强化学习主干的Transformer内嵌Transformer

    方法:

    1. 纯Transformer基础网络:提出基于纯Transformer的网络设计,用于深度强化学习(Deep RL),旨在提供适用于在线和离线设置的即用型主干网络。

    2. 内部Transformer:用于处理单个观测,学习包含重要空间信息的观测表示。

    3. 外部Transformer:负责处理观测历史,捕捉跨多个连续观测的重要时间信息。

    4. Transformer内嵌Transformer(TIT)主干:通过级联两个Transformer来提取空间-时间表示,以进行更好的决策。

    创新点:

    1. 纯Transformer主干网络:首次展示了纯Transformer可以作为标准在线和离线RL方法(例如PPO和CQL)的主干,只要正确设计主干网络。这类似于ViT证明了基于纯Transformer的网络可以很好地执行计算机视觉任务。

    2. TIT主干网络:提出了两种TIT主干网络,实验表明最佳模型不仅在在线和离线RL设置中,而且在最近提出的决策Transformer的监督学习范式中,都达到了与几个强基线相当的或更好的性能。

    3. 性能提升:在Flickr8K数据集上,Bi-LSTM模型在BLEU-N评估中达到了61.9/43.3/29.7/20.0的成绩,而使用VggNet的Bi-LSTM模型在MSCOCO数据集上达到了67.2/49.2/35.2/24.4的成绩,显示出显著的性能提升。

    4. 多角度分析:通过从多个方面分析主干网络,提供了对所提方法的深入理解。

      图片

    论文4

    Translating Math Formula Images to LaTeX Sequences Using Deep Neural Networks with Sequence-level Training

    使用具有序列级训练的深度神经网络将数学公式图像翻译成LaTeX序列

    方法:

    1. 编码器-解码器架构:提出了一个深度神经网络模型,该模型使用编码器-解码器架构将数学公式图像翻译成LaTeX标记序列。

    2. 卷积神经网络(CNN):作为编码器,将图像转换为一组特征图。

    3. 2D位置编码:为了更好地捕捉数学符号的空间关系,特征图通过2D位置编码增强,然后展开成向量。

    4. 堆叠双向长短期记忆(LSTM)模型:作为解码器,集成了软注意力机制,作为语言模型将编码器输出翻译成LaTeX标记序列。

    创新点:

    1. 2D位置编码:提出了一种新的2D位置编码技术,以丰富表示空间局部性信息,帮助模型更好地区分数学符号的二维空间关系。

    2. 序列级训练目标:提出了基于BLEU分数的序列级训练目标函数,这可以更好地捕捉LaTeX序列中不同标记之间的相互关系。

    3. 消除暴露偏差问题:通过在序列级训练期间关闭解码器中的反馈回路,即在每个时间步骤中输入预测的标记而不是真实的标记,从而消除了暴露偏差问题。

    4. 性能提升:在IM2LATEX-100K数据集上训练和评估模型,显示出在基于序列和基于图像的评估指标上都达到了最先进的性能,例如BLEU分数达到了90.28%,图像编辑距离达到了92.28%。

      图片

     

     更多论文料可以关注AI科技探寻,发送:111  领取更多[论文+开源码】  

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值