让机器学会看图说话:Image Caption任务最新综述

本文提供了一份关于图像字幕任务的综合综述,探讨了从2015年以来视觉编码、文本生成、训练策略、数据集和评估指标的发展。尽管性能不断提升,但图像字幕尚未找到终极解决方案。文章分析了预训练方法、transformer架构、多样性与自然性生成等挑战,并指出了未来的研究方向,包括大规模预训练、新颖架构和训练策略、领域泛化和可解释性需求。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 华南理工大学本科生

研究方向 | CV,Causality

Abstract

联系视觉和语言在通用人工智能中起着至关重要的作用。因此近几年来大量的工作致力于图像字幕(image captioning),这项任务简而言之就是“使用语法和语义正确的语言描述图像”。

从 2015 年开始这项任务的 pipeline 就被分为了两部分,第一阶段即对图像特征进行编码,第二阶段生成语句。这两年来,随着对物体对象区域,属性,以及物体之间的关系的开发,和对多模态连接,全注意力方法以及像 BERT 一样的早期融合方法的引入,这两个阶段都得到了极大的发展。虽然性能是提升了,但是图像字幕依然没有得到一个“最终答案”。

这篇工作旨在提供一个综合性的概述以及对现有方法的分门别类,它的分类方式大概是根据如下方面的不同:1. 视觉编码;2. 文本生成;3. 训练策略;4. 数据集;5. 评测指标。

文中定量地比较了图像字幕很多模型,以此来找出最有影响力的网络结构和训练策略方面的技术革新。除此之外,文中还讨论了大量的变体方法和他们面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术,并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。

论文标题:

From Show to Tell: A Survey on Image Captioning

论文链接:

https://arxiv.org/abs/2107.06912

Introduction

图像字幕即使用自然语言描述图像,使用一个图像理解模块和一个自然语言生成模块。神经科学在近几年里阐述了人类语言和视觉之间的联系。同样的,在 AI 领域能够处理图像和生成语言的架构的设计是一个非常新的问题。这些研究工作的目标是找到最有效的 pipeline 来处理输入图像,表示其内容,并在保持语言流畅性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值