CV每日论文--2024.5.23

最新推荐文章于 2024-09-15 15:29:29 发布

计算机视觉每日论文

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量900

点赞数 11

文章标签：人工智能计算机视觉深度学习算法机器学习

本文链接：https://blog.csdn.net/u012854516/article/details/139141579

版权

1、OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

中文标题：OmniGlue: 基于基础模型引导的通用特征匹配

简介：图像匹配技术在传统基准测试中表现不断提高,但在应用到真实世界场景时却存在局限性,主要是由于其对新领域的泛化能力不足。为了解决这个问题,研究人员提出了OmniGlue这种以泛化为核心的可学习图像匹配器。

OmniGlue利用视觉基础模型的广泛知识来指导特征匹配过程,从而提高了对未见过的图像领域的适应能力。同时,它还采用了一种新颖的关键点位置引导注意机制,将空间与外观信息分离,进一步增强了匹配描述符的性能。

在多个不同图像领域的数据集上进行的全面实验表明,OmniGlue相比可直接比较的参考模型,在未见过领域上取得了20.9%的性能提升。与最近提出的LightGlue方法相比,也取得了9.5%的改进。相关的代码和模型可以在https://hwjiang1510.github.io/OmniGlue找到。

总之,OmniGlue是一种基于基础模型知识的通用图像匹配方法,在新领域的泛化能力上表现良好,为实际应用提供了新的可能性。

2、Personalized Residuals for Concept-Driven Text-to-Image Generation

中文标题：概念驱动的文本到图像生成的个性化残差

简介：这篇文章提出了两个创新点来提高文本到图像的扩散模型的生成效率:

（1）个性化残差(Personalized Residuals)

作者通过冻结预训练的文本条件扩散模型的大部分权重,只学习少量模型层的低秩残差来表示概念。这样可以在单个GPU上快速(约3分钟)学习概念的身份特征,而无需使用复杂的正则化。

（2）局部注意力引导采样(Local Attention-Guided Sampling)

作者提出了一种采样技术,只在通过交叉注意力定位到的概念区域应用学习到的残差,在其他区域使用原始扩散模型。这结合了概念特征和底层扩散模型的生成先验,提高了生成效率。

总的来说,这篇文章提出了两种创新的方法,在保持生成质量的同时大幅提高了概念驱动的文本到图像生成的效率。

3、Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

中文标题：基于预训练扩散模型的细粒度身份和属性控制面部适配器

简介：当前的人脸重建和交换方法主要依赖于GAN框架,但最近人们更多关注于预训练的扩散模型,因为它们具有更强大的生成能力。然而,训练这些扩散模型需要大量资源,而且结果也还未达到理想水平。为了解决这一问题,我们提出了"Face-Adapter" - 一种专为预训练扩散模型设计的高精度、高保真度的人脸编辑适配器。

我们观察到,人脸重建/交换任务本质上涉及目标结构、身份和属性的组合。我们的目标是能够在一个模型中实现对这些因素的精细化控制。具体方法包括:1)一个空间条件生成器,提供精确的地标和背景信息;2)一个即插即用的身份编码器,将面部特征嵌入到文本空间;3)一个属性控制器,集成了空间条件和详细属性。

与完全微调的人脸重建/交换模型相比,Face-Adapter在运动控制精度、身份保留能力和生成质量方面有着可比甚至更好的性能。此外,Face-Adapter能够无缝集成到各种稳定的扩散模型中。