LaVi-Bridge：语言模型与生成式视觉模型的融合框架！港大/港中大/港科大联合提出...

最新推荐文章于 2024-09-02 09:45:41 发布

Amusi（CVer）

最新推荐文章于 2024-09-02 09:45:41 发布

阅读量102

点赞数

文章标签：语言模型人工智能机器学习计算机视觉自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247594653&idx=3&sn=6df8f840b0acad9e3e5c410e994777b8&chksm=f84b3f12afeac78537652ad647e4e1bbaeb68290d25a500d90cd64dcc8235f115dad9e80afe7&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信：CVer444，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！

港三校联合提出LaVi-Bridge：语言模型与生成式视觉模型的融合框架！

代码：https://github.com/ShihaoZhaoZSH/LaVi-Bridge

论文：https://arxiv.org/abs/2403.07860

简介：

这篇工作研究了一个非常值得探索的问题，那就是在文生图扩散模型中，如何将任意的语言模型和生成式视觉模型进行融合，实现文字生成图片的任务。

深度语言模型和视觉模型的发展非常迅猛，每个领域都有更强大的模型被不断的提出。那么，如何将这些最新的模型融入到现有的文生图扩散模型中呢？更进一步的来看，如何耦合任意两个语言模型和生成式视觉模型？以及不同模型相结合会产生怎样的性能变化？这些问题都值得被探索。

这篇工作对这些问题进行了一系列的探索，并提出了LaVi-Bridge。这种框架下，各种训练好的语言模型和生成式视觉模型都能够进行耦合来完成文字生成图片的任务。该框架适用于多种模型结构，并且不需要改动模型原有的参数，只引入了可插拔的训练模块，非常灵活。文章还对各种语言和视觉模型的组合进行了全方位的评估和比较，并得到了一些结论。

方法：

在LaVi-Bridge的框架下，首先选取需要结合的语言模型和生成式视觉模型，并将它们的权重固定。然后，将LoRA同时插入语言和视觉模型中，以此来引入可训练参数。另外，还需要在语言模型和视觉模型之间插入一个adapter来对二者进行更好的对齐，这个adapter由多层前馈层构成。这样，只需要在文本图片对上训练LoRA引入的参数以及adapter便可以将这两个语言和视觉模型进行结合。下图展示了LaVi-Bridge的流程图。

评估：

文章在各种各样的语言模型和视觉模型上进行了实验。进行了大量的可视化比较，并在短文本、长文本和复杂文本三个设定下进行了定量评估。

比如，将视觉模型固定为Stable Diffusion的U-Net，然后将不同的语言模型与这个U-Net进行结合。这里考虑了CLIP，T5-Small，T5-Base，T5-Large和Llama-2。可视化结果和定量测试的结果在下面的图表中进行了展示。可以发现，这些语言模型能够很好的和U-Net融合。并且，采用Llama-2的LaVi-Bridge在所有的文本对齐指标上都展现了最好的结果。同时，对于文本理解的能力，T5-Large要优于T5-Base，T5-Base优于T5-Small。这意味着，在LaVi-Bridge的框架下，更好的语言模型能够带来更好的文本对齐能力，这也让利用LaVi-Bridge融合不同模态的模型变得更加有意义。

文章还展示了LaVi-Bridge在不同生成式视觉模型下的性能。这里，将语言模型固定为T5-Large，测试了Latent Diffusion Model的U-Net，Stable Diffusion的U-Net，PixArt的transformer，一共三种视觉模型。可视化结果和定量测试的结果展示在了下面的图表中。可以发现，这些视觉模型都能够很好的和T5-Large进行融合。采用了PixArt视觉模型的LaVi-Bridge展现了更加丰富的细节，并且在所有的图像质量评估指标上展示出了最好的结果。还可以发现，对于图像质量，Stable Diffusion的U-Net是要优于Latent Diffusion Model的U-Net。这也和上面对不同语言模型的探究相符。

文章里还展示了更多的可视化结果：

更多技术细节请参阅原论文。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的152页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如多模态或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LaVi-Bridge：语言模型与生成式视觉模型的融合框架！港大/港中大/港科大联合提出...

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【扩散模型和多模态】交流群添加微信：CVer444，小助手会拉你进群！扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！港三校联合提出LaVi-Bridge：语言模型与生成式视觉模型的融合框架！代码：https://githu...
复制链接

扫一扫