Visual Programming: Compositional visual reasoning without training（CVPR2023）

第六五签

已于 2023-07-15 21:21:22 修改

阅读量730

点赞数

分类专栏：神经符号推理论文文章标签：人工智能

于 2023-07-15 21:18:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39699362/article/details/131743890

版权

论文同时被 2 个专栏收录

27 篇文章

订阅专栏

神经符号推理

5 篇文章

订阅专栏

研究者们提出了一种基于神经符号结合的新方法：VISPROG。利用提示学习中的上下文学习，使用GPT-3生成类似python的程序，这些程序通过调用现有的模型（比如CLIP、ViLT或者python库等，论文中成为模块）用来解决视觉各种任务。该方法是可解释的、可干预的，可以用于多种任务处理。

图1

上图1为VISPROG方法的流程图，包括程序生成器（program generator）和程序解析器（program interpreter），程序生成器通过GPT-3和提示工程将自然语言转化为类似python的程序，过程如图2所示，程序解析器将由生成器生成的程序转换为对应的模块，这些模块包括用于图像理解、图像处理、知识检索的神经网络模型、图像处理程序和python库等，并且根据这些模块进将输入的图像进行预测和获得可视化图，这些模块如图3所示。

图2

使用提示学习和GPT-3将自然语言转换为程序，图2中每一行为一句代码，SEG、Select等可以理解为函数名称，image、object、query可以理解为函数参数,IMAGE、OBJ0等可以理解为变量。优点在于这些程序是可理解的、可干预的。

图3

红色模块表示神经网络模型，包括OWL-VIT、DSFD、CLIP、ViLT、Diffusion等，蓝色模块表示图像处理程序和python库等。

博客等级

码龄8年

140
原创

1472
点赞

2109
收藏

992
粉丝

关注

私信

分类专栏

算法 37篇
数学 27篇
扩散模型 1篇
模型 3篇
论文 27篇
ICLR2024 1篇
AI agent 3篇
LLM 1篇
SAM 11篇
因果论 5篇
神经符号推理 5篇
深度学习自学之路 3篇
python 20篇
linux 18篇

最新评论

ubuntu挂载磁盘或U盘
blue023: 感谢分享，技术界还是有你们的
ubuntu挂载磁盘或U盘
阿J~: 大佬，一给我嘞giao
优化进化算法
华29: 进化策略（Evolution Strategies, ES）是一类优化算法，用于求解实值连续优化问题，尤其在处理大规模、非线性、多模态（存在多个局部最优解）问题时效果显著。其基本思想是模拟自然进化中的变异、重组和选择过程。这个和最近的＜扩散模型是进化算法＞，里面提到的进化算法一样
证据理论（Dempster-Shafer 理论）
郑在等实验结果: 对，为什么呢，我感觉这里有错误了
信息熵 (Entropy)
carry_mine_heat: shang

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。