扩散模型 GLIDE：35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

大模型与计算机视觉

于 2024-06-22 20:21:23 发布

阅读量923

点赞数 24

分类专栏：算法学习笔记文章标签： glide 大模型人工智能深度学习扩散模型多模态多模态大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84033492/article/details/139887518

版权

算法学习笔记专栏收录该内容

128 篇文章 39 订阅

订阅专栏

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集：

《AIGC 面试宝典》已圈粉无数！

在这里插入图片描述

论文：GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

代码：https://link.zhihu.com/?target=https%3A//github.com/openai/glide-text2im

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗技术与面试交流群，想要大模型技术交流、了解最新面试动态的、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2040。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

想加入星球也可以如下方式：

方式①、微信搜索公众号：机器学习社区，后台回复：交流
方式②、添加微信号：mlc2040，备注：交流

一、背景

在扩散模型经过了一系列发展之后，Openai 开始探索文本条件下的图像生成，并在这篇论文里对比了两种不同的 guidance 策略，分别是通过 CLIP 引导和 classifier-free 的引导。

验证了 classifier-free 的方式生成的图片更真实，与提示的文本有更好的相关性。并且使用 classifier-free 的引导的 GLIDE模型在 35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

在这里插入图片描述

二、方法

作者训练的模型包括：

一个 35 亿参数量的 text-conditional 扩散模型，分辨率为 64*64
一个 15 亿参数量的 text-conditional 上采样扩散模型，将分辨率提升至 256x256
对于 CLIP guidance 模型，还额外训练了一个 64x64 noised ViT-L CLIP

三、效果

3.1 不同引导方式的对比：

在这里插入图片描述

3.2 定量对比

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

精选

大模型与计算机视觉

关注

24
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。