对图像搜索和帮助视觉障碍者「查看」世界等应用而言,让图像带有文本描述是非常有价值的。使用人力标注显然不现实,而随着深度学习技术的发展,使用机器为图像自动生成准确的文本描述成为了可能。Jason Brownlee 博士的这篇文章对使用深度学习的图像描述进行了介绍,机器之心对本文进行了编译。
图像描述涉及到为给定图像(比如照片)生成人类可读的文本描述。这个问题对人类而言非常简单,但对机器来说却非常困难,因为它既涉及到理解图像的内容,还涉及到将理解到的内容翻译成自然语言。
最近,在为图像自动生成描述(称为「字幕」)的问题上,深度学习方法已经替代了经典方法并实现了当前最佳的结果。在这篇文章中,你将了解可以如何使用深度神经网络模型为照片等图像自动生成描述。
读完本文之后,你将了解:
- 为图像生成文本描述的难点以及将计算机视觉和自然语言处理领域的突破结合起来的必要性。
- 神经特征描述模型(即特征提取器和语言模型)的组成元素。
- 可以如何将这些模型元素组合到编码器-解码器(Encoder-Decoder)中,也许还会用到注意机制。
概述
这篇文章分为三部分,分别是:
1. 使用文本描述图像
2. 神经描述模型
3. 编码器-解码器结构
使用文本描述图像
描述图像是指为图像(比如某个物体或场景的照片)生成人类可读的文本描述。
这个问题有时候也被称为「自动图像标注」或「图像标注」。
这个问题对人类而言轻而易举,但对机器来说却非常困难。
快速一瞥足以让人类指出和描述一个视觉场景的丰富细节。但事实证明,我们的视觉识别模型难以掌握这样出色的能力。——《用于生成图像描述的深度视觉-语义对齐》,2015
要解决这个问题,既需要理解图像的内容,也需要将其中的含义用词语表达出来,并且所表达出的词语必须以正确的方式串接起来才能被理解。这需要将计算机视觉和自然语言处理结合起来,是广义的人工智能领域的一大难题。
自动描述图像内容是人工智能领域的一个基本问题,该问题将计算机视觉和自然语言处理连接到了一起。——《Show and Tell:一种神经图像描述生成器》,2015
此外,这个问题也有不同的难度;让我们通过例子看看这个问题的三种不同变体。
1. 分类图像
从数百个或数千个已知分类中为图像分配一个类别标签。