【论文阅读笔记】Recurrent fusion network for image captioning.

RFNet是一种用于图像标题生成的方法,它通过使用多个CNN编码器获取图像的多角度表示,然后通过两个阶段的循环融合过程,结合注意力机制,生成更丰富的上下文向量,最终由解码器转化为自然语言描述。这种方法旨在提高对输入图像的语义理解,从而生成更精确的图像描述。
摘要由CSDN通过智能技术生成

Recurrent fusion network for image captioning.

ECCV 2018.

W. Jiang, L. Ma, Y.-G. Jiang, W. Liu, and T. Zhang.

  • 问题

现有的基于该框架的模型仅采用了一个cnn,仅从一个特定的角度描述图像内容。因此,不能全面理解输入图像的语义,不能生成更好的描述。

  • 思路

从多个cnn编码器中提取不同的表示,更丰富、更全面,信息互补。然后融合,传入decoder。(RFNet)。

融合过程利用encoder输出之间的交互,为decoder生成紧凑而有信息的表示。

  • 方法

Recurrent Fusion Network (RFNet)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值