文献阅读(十三):A survey of deep learning-based visual question answering_黄同愿
- 标题:基于深度学习的视觉问答研究综述
Abstract
随着机器学习特别是深度学习的兴起和不断发展,视觉问答领域的研究取得了显著进展,具有重要的理论研究意义和实际应用价值。因此,有必要对目前的研究进行总结,为该领域的研究者提供一些参考。本文对视觉问答领域的相关研究和典型方法进行了详细而深入的分析和总结。
首先介绍了VQA(Visual Question answer)的相关背景知识。
其次,讨论了视觉问答所面临的问题和挑战,并对视觉问答的具体方法进行了展望。
第三,对影响视觉问答的关键子问题进行了归纳和分析。
然后,总结了目前常用的数据集和评价指标。
接下来,针对VQA研究中流行的算法和模型,对算法和模型进行了总结和列举。
最后,对视觉问答的未来发展趋势和结论进行了展望。
1 Introduction
近年来,计算机视觉和自然语言处理已经取得了很大的进展,但两者的联合任务仍然面临着巨大的挑战。2014年,视觉问答(VQA)作为一项新兴的研究被提出,它结合了这两个任务,从给定的图片和关于它的问题生成答案,如图1所示。
VQA可以与图像字幕(IC)、视觉问题生成(VQG)和视觉对话(VD)相结合