Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning

Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning

原文地址

时间:2019 CVPR

Intro

本文要解决的问题是dense caption,通过寻找每对object之间的关系来进行caption生成

Approach

给一张图片,RPN生成object proposals,然后结合层接受一对输入(subject,object),同时接受它们的并集区域作为输入,这个三元组(subject,object,union)然后输入到triple-stream LSTM中,生成caption和每个词的POS,整个模型如图所示
在这里插入图片描述

Region Proposal Networks

为了得到subject,object,只需要将所有proposal组成二元组即可,总共B(B-1)个二元组,除此以外,上图中的geometric提供了两个subject和object在union中的相对位置
在这里插入图片描述

Relational Captioning Networks

模型结构如图所示
在这里插入图片描述
Triple-Stream LSTMs
三部分输入分别进入一个LSTM来预测,得到的结果融合起来生成下一个词

Multi-task with POS Classification
通常的relation captioning的生成词的词性总是按照subj-pred-obj的顺序,我们在生成词的时候同时预测POS,鼓励生成的caption遵循这个规则,来做一个multi-task学习

损失函数
在这里插入图片描述
由caption loss,POS 分类loss,detection loss和bounding box regression loss组成

结果

在这里插入图片描述

在这里插入图片描述

结论

本文提出了multi task triple stream Net,针对图中每对proposal利用了POS辅助image captioning,得到了较好的结果

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值