Visual Programming: Compositional visual reasoning without training(CVPR2023)

研究者们提出了一种基于神经符号结合的新方法:VISPROG。利用提示学习中的上下文学习,使用GPT-3生成类似python的程序,这些程序通过调用现有的模型(比如CLIP、ViLT或者python库等,论文中成为模块)用来解决视觉各种任务。该方法是可解释的、可干预的,可以用于多种任务处理。 

图1

 上图1为VISPROG方法的流程图,包括程序生成器(program generator)和程序解析器(program interpreter),程序生成器通过GPT-3和提示工程将自然语言转化为类似python的程序,过程如图2所示,程序解析器将由生成器生成的程序转换为对应的模块,这些模块包括用于图像理解、图像处理、知识检索的神经网络模型、图像处理程序和python库等,并且根据这些模块进将输入的图像进行预测和获得可视化图,这些模块如图3所示。

图2

使用提示学习和GPT-3将自然语言转换为程序,图2中每一行为一句代码,SEG、Select等可以理解为函数名称,image、object、query可以理解为函数参数,IMAGE、OBJ0等可以理解为变量。优点在于这些程序是可理解的、可干预的。

图3

 红色模块表示神经网络模型,包括OWL-VIT、DSFD、CLIP、ViLT、Diffusion等,蓝色模块表示图像处理程序和python库等。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值