image/vedio caption 论文分享一

最新推荐文章于 2023-12-20 22:32:37 发布

神创之初

最新推荐文章于 2023-12-20 22:32:37 发布

阅读量213

点赞数

文章标签：神经网络深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37754042/article/details/107500472

版权

DenseCap: Fully Convolutional Localization Networks for Dense Captioning 【2015】

摘要：

我们介绍一种密集描述任务，这个要求计算机视觉系统可以定位和用自然语言描述图中辨识到的区域。密集描述任务概括为当描述只是单个单词时的目标检测任务和当预测的区域为覆盖整张图像的图像描述任务。我们提出了一种全卷积定位神经网络，简称FCLN ,这个结构可以单一的，有效率向前传播数据来处理图像，不需要额外的区域参考，并且端对端的被训练。该结构由卷积网络，一个特别的定位层，和一个可以产生标签序列的循环网络语言模型。我们使用 Visual Genome dataset 评估了我们的网络，这个数据集包括94000张图片和410000 region-grounded captions。我们的速度和精度都超过了当前最好的。

任务描述

模型框架

数据集

区域标题数据集：我们使用 Visual Genome (VG) region captions dataset进行实验，该数据集包含94313张图像和4100413段文本（每幅图像43.5），每个片段都以图像的某个区域为基础。【未公开】

实验案例（将提出的模型用到了图像检索和密集描述任务重中）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
image/vedio caption 论文分享一

DenseCap: Fully Convolutional Localization Networks for Dense Captioning 【2015】摘要：我们介绍一种密集描述任务，这个要求计算机视觉系统可以定位和用自然语言描述图中辨识到的区域。密集描述任务概括为当描述只是单个单词时的目标检测任务和当预测的区域为覆盖整张图像的图像描述任务。我们提出了一种全卷积定位神经网络，简称FCLN ,这个结构可以单一的，有效率向前传播数据来处理图像，不需要额外的区域参考，并且端对端的被训练。该结构由卷
复制链接

扫一扫

神创之初 CSDN认证博客专家 CSDN认证企业博客

码龄7年

19: 原创

107万+: 周排名

47万+: 总排名

2万+: 访问

: 等级

333: 积分

4: 粉丝

7: 获赞

3: 评论

51: 收藏

私信

关注

热门文章

最新评论

ctcdecode安装
每天都要写bug: 您好，想请问下您的环境python, torch和cuda版本分别是怎么样的呀？我的总是报不兼容的错误。
ctcdecode安装
hjing22: 你好，想问下我安装成功之后一直报错这个ModuleNotFoundError: No module named 'ctcdecode._ext'，但是我也退出了ctcdecode的目录但是还是报错这是什么原因。
pytorch使用技巧- torch.backends.cudnn.benchmark
weixin_40888946: 讲的很清楚，感谢博主分享！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。