DenseCap: Fully Convolutional Localization Networks for Dense Captioning 【2015】
摘要:
我们介绍一种密集描述任务,这个要求计算机视觉系统可以定位和用自然语言描述图中辨识到的区域。密集描述任务概括为当描述只是单个单词时的目标检测任务和当 预测的区域为覆盖整张图像的图像描述任务。我们提出了一种全卷积定位神经网络,简称FCLN ,这个结构可以单一的,有效率向前传播数据来处理图像,不需要额外的区域参考,并且端对端的被训练。该结构由卷积网络,一个特别的定位层,和一个可以产生标签序列的循环网络语言模型。我们使用 Visual Genome dataset 评估了我们的网络,这个数据集包括94000张图片和410000 region-grounded captions。我们的速度和精度都超过了当前最好的。
任务描述
模型框架
数据集
区域标题数据集:我们使用 Visual Genome (VG) region captions dataset进行实验,该数据集包含94313张图像和4100413段文本(每幅图像43.5),每个片段都以图像的某个区域为基础。【未公开】