CV论文--2024.3.14

1、Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation

中文标题:连接不同的语言模型和生成式视觉模型,用于文本到图像的生成

简介:随着文本生成图像技术的不断发展,引入了文本扩散模型,从而使该技术取得了重大进展。这些模型通常由一个语言模型和一个视觉模型组成,其中语言模型负责解释用户提示,视觉模型则负责生成相应的图像。随着语言和视觉模型在各自领域的不断进步,探索使用更先进的组件替换文本生成图像扩散模型中的组件具有巨大的潜力。因此,更广泛的研究目标将是探讨如何将任意两个不相关的语言和生成视觉模型集成到文本生成图像中。在这项研究中,我们探索了这一目标,并提出了LaVi-Bridge,这是一个管道,可以将不同的预训练语言模型和生成视觉模型集成到文本生成图像中。通过利用LoRA和适配器,LaVi-Bridge提供了一种灵活的即插即用方法,无需修改语言和视觉模型的原始权重。我们的管道与各种语言模型和生成视觉模型兼容,并适应不同的结构。在这个框架内,我们证明了将更先进的模块,如更先进的语言模型或生成视觉模型,纳入其中,可以显著提高文本对齐或图像质量等能力。我们已经进行了广泛的评估以验证LaVi-Bridge的有效性。您可以在https://github.com/ShihaoZhaoZSH/LaVi-Bridge 获取相关代码。

2、Beyond Text: Frozen Large Language Models in Visual Signal Comprehension

中文标题:超越文本:冻结的大型语言模型在视觉信号理解中

简介:这项研究探讨了大型语言模型(LLM)在无需在多模态数据集上微调的情况下直接理解视觉信号的潜力。我们的方法将图像视为一种语言实体,并将其转换为一组离散单词,这些单词源自LLM词汇。为了实现这一目标,我们提出了Vision-to-Language Tokenizer,简称V2T Tokenizer。该Tokenizer通过编码器-解码器、LLM词汇和CLIP模型的协作,将图像转换为“外语”。通过这种创新的图像编码,LLM不仅能进行视觉理解,还能进行自回归式的图像去噪和恢复,而且关键是不需要任何微调。我们进行了严格的实验验证我们的方法,包括图像识别、图像字幕、视觉问答等任务,以及修复图像的去噪任务,如修补、扩展、去模糊和位移恢复。您可以在https://github.com/zh460045050/V2L-Tokenizer 获取代码和模型。

3、StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting

中文标题:StyleGaussian: 使用高斯飞溅进行即时3D风格转移

简介:我们介绍了一项名为StyleGaussian的创新技术,它是一种3D风格转移技术,能够以每秒10帧的速度将任何图像的风格即时转移到3D场景中。通过利用3D高斯光斑(3DGS),StyleGaussian实现了风格转移,同时保持了其实时渲染能力和多视角一致性。该技术通过嵌入、转移和解码三个步骤实现即时风格转移。首先,将2D VGG场景特征嵌入到重建的3D高斯光斑中。然后,根据参考风格图像转换嵌入的特征。最后,将转换后的特征解码为风格化的RGB。StyleGaussian具有两个创新设计。第一个是高效的特征渲染策略,先渲染低维特征,然后在嵌入VGG特征时将它们映射到高维特征中。这样可以显著减少内存消耗,并使3DGS能够渲染高维内存密集型特征。第二个是基于K最近邻的3D CNN。作为风格化特征的解码器,它消除了破坏严格多视角一致性的2D CNN操作。广泛的实验结果表明,StyleGaussian实现了即时的3D风格化,同时保持了实时渲染和严格的多视角一致性。您可以访问项目页面获取更多信息:https://kunhao-liu.github.io/StyleGaussian/

  • 15
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值