实时字幕生成原理挖掘——论文解读DenseCap: Fully Convolutional Localization Networks for Dense Captioning

最新推荐文章于 2024-07-26 16:49:46 发布

sunyiyou_hit

最新推荐文章于 2024-07-26 16:49:46 发布

阅读量4.8k

点赞数 3

分类专栏：深度学习文章标签：深度学习图像处理自然语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunyiyou9/article/details/53045158

版权

本文深入解析DenseCap模型，该模型结合了Image Caption与Faster R-CNN，实现密集字幕生成。通过Localisation Layer的双线性插值方法处理不同大小的提案，使得误差可反向传播，优化特征映射。DenseCap能从图像中生成多个目标的描述，推进了图像理解和自然语言处理的融合。

摘要由CSDN通过智能技术生成

先来看看denesecap的效果，
denscap效果图
对比之前的Image Caption

由单目标变成了多目标。

就好比之前的Image Classfication 发展到 Object Detection

其实Image Caption发展到densecap本质上也是借鉴了Faster RCNN进行Object Detection的手法。在一个前向运算中就完成了 Proposal 和 Caption的工作。

来看下Image Caption的结构
这里写图片描述
本质上是将Image经过卷积后得到的向量作为LSTM的输入，最后得到一个词的序列。

Faster-RCNN的结构可参考我的博客
http://blog.csdn.net/sunyiyou9/article/details/52434541，较为详细的介绍了Faster RCNN中的关键部分RPN网络的工作机理。
这里写图片描述
而RPN网络便是将单目标任务变成多目标任务的大杀器。

Image Caption + Faster RCNN = densecap

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
实时字幕生成原理挖掘——论文解读DenseCap: Fully Convolutional Localization Networks for Dense Captioning

先来看看denesecap的效果，对比之前的Image Caption 由单目标变成了多目标。就好比之前的Image Classfication 发展到 Object Detection其实Image Caption发展到densecap本质上也是借鉴了Faster RCNN进行Object Detection的手法。在一个前向运算中就完成了 Proposal 和 Caption的工作
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。