引言
从上图中你看到了什么?
你会说"一条站在草地上的小狗"、"草地上的一条白色小狗"等等,这些都是能够描述这张图片传达的信息的。
对我们人类而言,用文字描述图片这项任务非常简单,即使是5岁的小孩子也能非常准确地总结出图片中的信息。但是,对于计算机来说,这项任务并不简单,不仅需要准确理解包含在图片中的内容,而且还需要将这些内容组织成一段语意连贯的文字描述。
我们将这种用一段文字概述图片内容的任务定义为看图说话 (Image Captioning) ,其输入是一张图片,输出是一段文字描述。看图说话是一种结合了计算机视觉 (Computer Vision) 和自然语言处理 (Natural Language Processing) 两大领域的综合性的智能任务,既需要计算机视觉技术来理解图片里面包含的内容,也需要自然语言处理技术来将对图片的理解转换成相应的语意连贯的描述性的文字。
在现实生活中,看图说话有很多的应用场景。比如,用户拍了一张照片后,利用Image Captioning技术可以为其生成合适的文字方便以后检索或省去用户手动配文。此外,它还可以帮助视觉障碍者去理解图像内容。视频解说 (Video Captioning) 任务与看图说话任务相类似,两者不同之处在输入的形式不同。视频解说任务的输入是一段视频,输出是一段对视频的描述。
除了在计算机视觉及自然语言处理领域被广泛使用并取得非常好的效果之外,深度学习方法在看图说话任务上也取得了当前最优的结果。但是,在深度神经网络取得巨大进展之前,即