让机器学会看图说话：Image Caption任务最新综述

最新推荐文章于 2021-11-30 16:12:43 发布

PaperWeekly

最新推荐文章于 2021-11-30 16:12:43 发布

阅读量2.9k

点赞数 2

文章标签：编程语言计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/119046564

版权

本文提供了一份关于图像字幕任务的综合综述，探讨了从2015年以来视觉编码、文本生成、训练策略、数据集和评估指标的发展。尽管性能不断提升，但图像字幕尚未找到终极解决方案。文章分析了预训练方法、transformer架构、多样性与自然性生成等挑战，并指出了未来的研究方向，包括大规模预训练、新颖架构和训练策略、领域泛化和可解释性需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 华南理工大学本科生

研究方向 | CV，Causality

Abstract

联系视觉和语言在通用人工智能中起着至关重要的作用。因此近几年来大量的工作致力于图像字幕（image captioning），这项任务简而言之就是“使用语法和语义正确的语言描述图像”。

从 2015 年开始这项任务的 pipeline 就被分为了两部分，第一阶段即对图像特征进行编码，第二阶段生成语句。这两年来，随着对物体对象区域，属性，以及物体之间的关系的开发，和对多模态连接，全注意力方法以及像 BERT 一样的早期融合方法的引入，这两个阶段都得到了极大的发展。虽然性能是提升了，但是图像字幕依然没有得到一个“最终答案”。

这篇工作旨在提供一个综合性的概述以及对现有方法的分门别类，它的分类方式大概是根据如下方面的不同：1. 视觉编码；2. 文本生成；3. 训练策略；4. 数据集；5. 评测指标。

文中定量地比较了图像字幕很多模型，以此来找出最有影响力的网络结构和训练策略方面的技术革新。除此之外，文中还讨论了大量的变体方法和他们面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术，并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。

论文标题：

From Show to Tell: A Survey on Image Captioning

论文链接：

https://arxiv.org/abs/2107.06912

Introduction

图像字幕即使用自然语言描述图像，使用一个图像理解模块和一个自然语言生成模块。神经科学在近几年里阐述了人类语言和视觉之间的联系。同样的，在 AI 领域能够处理图像和生成语言的架构的设计是一个非常新的问题。这些研究工作的目标是找到最有效的 pipeline 来处理输入图像，表示其内容，并在保持语言流畅性

最低0.47元/天解锁文章