Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning

最新推荐文章于 2023-10-08 21:18:56 发布

luputo

最新推荐文章于 2023-10-08 21:18:56 发布

阅读量981

点赞数

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luo3300612/article/details/91381211

版权

论文笔记专栏收录该内容

41 篇文章 3 订阅

订阅专栏

Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning

时间:2019 CVPR

Intro

本文要解决的问题是dense caption，通过寻找每对object之间的关系来进行caption生成

Approach

给一张图片，RPN生成object proposals，然后结合层接受一对输入（subject,object），同时接受它们的并集区域作为输入，这个三元组（subject,object,union）然后输入到triple-stream LSTM中，生成caption和每个词的POS，整个模型如图所示
在这里插入图片描述

Region Proposal Networks

为了得到subject,object，只需要将所有proposal组成二元组即可，总共B(B-1)个二元组，除此以外，上图中的geometric提供了两个subject和object在union中的相对位置
在这里插入图片描述

Relational Captioning Networks

模型结构如图所示
在这里插入图片描述
Triple-Stream LSTMs
三部分输入分别进入一个LSTM来预测，得到的结果融合起来生成下一个词

Multi-task with POS Classification
通常的relation captioning的生成词的词性总是按照subj-pred-obj的顺序，我们在生成词的时候同时预测POS，鼓励生成的caption遵循这个规则，来做一个multi-task学习

损失函数
在这里插入图片描述
由caption loss，POS 分类loss，detection loss和bounding box regression loss组成

结果

在这里插入图片描述

在这里插入图片描述

结论

本文提出了multi task triple stream Net，针对图中每对proposal利用了POS辅助image captioning，得到了较好的结果

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning

Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning原文地址时间:2019 CVPRIntro本文要解决的问题是dense caption，通过寻找每对object之间的关系来进行caption生成Approach给一张图片，RPN生成object proposals，然...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。