本文将为大家介绍CVPR 2023年最佳论文两篇中的Visual Programming: Compositional visual reasoning without training (视觉编程:无需训练的组合式视觉推理),代码已开源。
-
Title:
Visual Programming: Compositional visual reasoning without training
-
Paper:
https://openaccess.thecvf.com/content/CVPR2023/html/Gupta_Visual_Programming_Compositional_Visual_Reasoning_Without_Training_CVPR_2023_paper.html
-
Code:
https://github.com/allenai/visprog
01 /导读/
VISPROG是一种神经符号方法,可利用自然语言指令解决复杂的组合式视觉任务。VISPROG避免了任何特定于任务的训练需求。相反,它利用大型语言模型的上下文学习能力生成类似Python的可组合程序,这些程序将被执行以获得解决方案和全面可解释的推理结果。生成的程序的每一行可以调用多个现成的计算机视觉模型、图像处理子程序或Python函数以生成中间输出,后续程序部分可以使用这些中间输出。在四项不同的任务中展示了VISPROG的灵活性:组合式视觉问答、基于图像对的零样本推理、实际知识对象标注和语言引导图像编辑。类似VISPROG这样的神经符号方法是扩展人工智能系统范围