Neural Baby Talk学习笔记

最新推荐文章于 2025-01-07 14:40:23 发布

kuaizi_sophia

最新推荐文章于 2025-01-07 14:40:23 发布

阅读量2.7k

点赞数 1

分类专栏： Image Caption 文章标签： image caption baby talk neural baby talk object detection

本文链接：https://blog.csdn.net/kuaizi_sophia/article/details/84138244

版权

Neural Baby Talk是一种减少语言模型依赖、强化图像内容的图像描述技术。通过物体检测器生成带有槽位的句子模板，再用目标检测结果填充，实现了视觉与文本的融合。文章详细介绍了模型结构、目标函数、训练细节，以及在标准和新颖对象caption任务上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Neural Baby Talk学习笔记

[1803.09845] Neural Baby Talk

1、介绍

深度学习时代

采用LSTM模型，过分依赖language model，导致caption经常与图像内容关联不够。
深度学习之前

更依赖图像内容，而对language model关注不多，例如采用一系列视觉检测器检测图像内容，然后基于模板或者其他方式生成caption
作者观点

减少对语言模型的依赖，更多地结合图像内容。

采用物体检测器检测图像中的物体(visual words)，然后在每个word的生成时刻，自主决定选取text word（数据集中的词汇）还是 visual word（检测到的词汇）。

在这里插入图片描述

图1

如图1所示，(a)为Baby Talk模型示意图，(b)为Neural Baby Talk模型示意图，©为neural image captioning模型示意图。Neural Baby Talk方法先生成一个句子模板，其中关键单词空缺，如图中的有色方块所示，接着，目标检测器对图片中目标进行检测，并将检测得到的物体名称填入句子模板中。

目标检测器对结果影响

如上图，展示了使用4个不同目标检测器的效果，(1)未使用目标检测器；(2)使用弱目标检测器，只检测出来“person”和"sandwich"；(3)使用在COCO数据集上训练出来的目标检测器，结果较为准确；(4)使用具有新奇概念novel concepts的目标检测器，图片captions训练集中并没有“Mr. Ted”和"pie"词汇。

本文提出的神经方法会生成一个句子模板，模板中的空槽和图片区域捆绑在一起。在每个time step，模型决定选择从textual词汇表生成词语还是使用视觉词汇。

visual word：

每个visual word对应一个区域 $r_I$ ，如图1所示，“puppy”和"cake"分别属于“dog”和"cake"的bounding box类别，是visual words。

textual word：

来自Caption的剩余部分，图1中，“with” 和 “sitting”与图片中的区域没有关系，因此是textual words。