CV前沿方向：Visual Prompting 视觉提示工程下的范式

最新推荐文章于 2025-03-11 09:30:00 发布

机器学习与AI生成创作

最新推荐文章于 2025-03-11 09:30:00 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lgzlgz3102/article/details/131990209

版权

prompt在视觉领域，也越来越重要，在图像生成，作为一种可控条件，增进交互和可控性，在多模态理解方面，指令prompt也使得任务灵活通用。视觉提示工程，已然成为CV一个前沿方向！

下面来看看最新的两篇论文，了解一下视觉提示的应用！

Visual Instruction Inversion: Image Editing via Visual Prompting

文本条件的图像编辑已经成为一种强大的图像编辑工具。

然而，在许多情况下，语言描述图像编辑具有歧义性和低效性。面对这些挑战时，视觉提示可以更直观和准确地传达所需的编辑内容。

本文提出了一种通过视觉提示进行图像编辑的方法。通过给定代表编辑的“之前”和“之后”图像的示例对，方法学习一个基于文本的编辑方向，用于在新图像上执行相同的编辑。利用文本到图像扩散模型的丰富预训练编辑能力，将视觉提示转化为编辑指令。

结果表明，即使只有一个示例对，也可以获得与最先进的文本条件图像编辑框架相竞争的结果。https://thaoshibe.github.io/visii/

A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models

Prompt engineering是一种技术，它通过增加大型预训练模型与针对特定任务的提示（即prompt）来适应新任务。提示可以手动创建为自然语言指令，也可以自动生成为自然语言指令或向量表示。

Prompt engineering使得仅依靠提示就可以进行预测，而无需更新模型参数，并且更容易将大型预训练模型应用于任务。

在过去的几年里，Prompt engineering在自然语言处理领域得到了广泛研究。然而，目前缺乏关于预训练视觉语言模型上Prompt engineering的系统综述。本文旨在对三种类型的视觉语言模型（包括多模态生成模型、图像-文本匹配模型和文本-图像生成模型）上的Prompt engineering的前沿研究进行全面的调查。对于每种模型，概述了模型简介、提示方法、基于提示的应用以及相关的责任和完整性问题。

此外，还讨论了视觉语言模型、语言模型和视觉模型上的Prompt engineering的共性和差异。总结了挑战、未来方向和研究机会，以促进未来关于这个方向研究。

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！

一杯奶茶，成为AIGC+CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

点击一杯奶茶，成为AIGC+CV视觉的前沿弄潮儿！，加入 AI生成创作与计算机视觉 知识星球！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。