Llama也能做图像生成?文生图模型已开源

导读

基于next-token prediction的图像生成方法首次在ImageNet benchmark超越了LDM, DiT等扩散模型,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

Llama也能做图像生成?文生图模型已开源 香港大学、字节跳动提出了基于自回归模型LLama的图像生成模型LlamaGen。这是基于next-token prediction的图像生成方法首次在ImageNet benchmark超越了LDM, DiT等扩散模型,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

在这里插入图片描述
图1:LlamaGen生成图像示例。第一行是class-conditional图像生成,第二行是text-conditional图像生成(文生图)。

文章: Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

项目主页: https://peizesun.github.io/llamagen/

开源代码: https://github.com/FoundationVision/LlamaGen

开源模型: https://huggingface.co/FoundationVision/LlamaGen

体验网站: https://huggingface.co/spaces/FoundationVision/LlamaGen

1. 研究动机

多模态大模型的技术路线: 基于next-token prediction的自回归模型主导了大语言模型,那么多模态大模型的技术路线往LLM的技术路线靠是一种非常自然的选择。

我们从ViT中学到了什么? ViT在2020年提出后,CV领域有相当长一段时间内致力于给ViT加inductive bias,例如,多尺度策略,以期实现更优秀的性能。这个过程诞生了许多优秀的工作。但是站在2024年往回看,会发现最初的ViT架构也能够达到相似的性能。那么,同样的故事是否会发生在多模态领域?

自回归模型vs扩散模型: 开源社区对自回归模型做图像生成的印象大多停留在2020年的VQ-GAN的ImageNet benchmark FID15左右。然而,早在2021年的ViT-VQGAN已经达到了FID 3.0左右的性能,DALL-E v1,Parti等更是在文生图领域展现了巨大的潜力。不过这些工作都没有闭源,而同时期的扩散模型在Stable Diffusion社区的带领下一骑绝尘。

于是,研究团队致力于提出开源版的基于自回归模型的图像生成 !!!

2. Method

回顾现有的先进的图像生成模型,我们总结出其成功的三点关键设计:

(1)图像压缩/量化器(image compressors/tokenizers)

(2)可scale up的图像生成模型(scalable image generation models)

(3)高质量的训练数据(high-quality training data)

2.1 重训 image tokenizer

我们采用与VQ-GAN同样的CNN架构将连续的图像转化成离散的token。相比2020年的VQ-GAN,我们对image tokenizer有了更多的认知:一个优秀的tokenizer需要更大的codebook size,更低的codebook vector dimension,同时,更好的图像重建需要更多的token数量。

2.2 基于Llama架构的图像生成模型

我们的模型架构主要基于Llama语言模型,包括使用RMSNorm的pre-normalization、SwiGLU 和 RoPE。我们尽可能的保持与Llama语言模型一模一样的架构,尽管图像生成领域一些常用的技术可能进一步提高性能,如AdaLN。

在Class-conditional和Text-conditional(文生图)图像生成模型中,我们使用最简单的实现:class或text embedding直接作为start token,后续的image token应用next-token prediction范式产生。

2.3 多阶段的文生图模型训练流程

在第一阶段,模型在LAION-COCO的50M子集上进行训练,图像分辨率为 256×256。LAION-COCO原始数据集有 600M图文对。我们通过有效的图像 URL、美学分数、水印分数、CLIP图文相似度分数和图像大小来筛选这些图像。

在第二阶段,模型在10M的内部高美学质量图像上进行微调,图像分辨率为 512×512。这些美学图像的文本描述由LLaVa产生。

2.4 LLM部署框架

基于原生自回归模型架构的图像生成模型可以无缝采用现有的LLM部署框架,例如vLLM。这也是统一模型架构的一大优势。

3. 实验

3.1 Image tokenizers (图像量化器)

我们重新训练的image tokenizer在ImageNet和COCO上优于以前的tokenizers,包括VQGAN,ViT-VQGAN, MaskGIT。重要的是,基于离散表征的tokenizer与基于连续表征的VAE性能持平,例如在扩散模型中被广泛使用的SD VAE。这表明图像量化的离散表征不再是图像重建的一大瓶颈。

在这里插入图片描述

3.2 Class-conditional image generation

在ImageNet benchmark中,LlamaGen在 FID、IS、Precision和Recall等指标上都表现出了极强的竞争力,其中,LlamaGen-3B 模型优于广为流行的扩散模型 LDM和DiT。这表明最朴素的自回归模型架构有能力作为先进图像生成系统的基础模型。同时,与之前的自回归模型相比,我们的模型在各个参数量级上均优于以前的模型。这得益于更好的image tokenizer和Llama架构更好的扩展性。

在这里插入图片描述

3.3 Text-conditional image generation (文生图)

经过第一阶段的训练,模型基本拥有了图文对齐的能力,但其生成图像的视觉质量有待提高。第二阶段的训练显著提高了生成图像的视觉质量。我们认为这种提高来自两个方面:(1)第二阶段的训练使用了高质量的美学图像(2)第一阶段的图像分辨率是256x256,第二阶段是512x512,更大的图像分辨率会带来更好的视觉效果。

图片

当输入更长的文本时,LlamaGen也可以生成兼具图文对齐与视觉质量的图像。

图片

3.4 部署

基于vLLM部署框架,LlamaGen实现了326% - 414%的加速。

图片

4. 结语

如果以扩散模型的发展路线做类似,目前的LlamaGen只是Stable Diffusion v1阶段,改进方向包括SDXL(更大的分辨率,更多的aspect ratio),ControlNet(更高的可控性),Sora(视频生成)。

从多模态大模型的视角看,自回归模型分别实现理解任务和生成任务都被证明了可行性,下一步就是在同一个模型中联合训练。这需要更多的图文数据和更大的计算资源才能走得通,也可能由于文本数据和图像数据的内在distribution不同这条路走到后面不太行得通。

大模型时代,一切皆有可能!

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

### 文生图模型的美学评测方法与指标 评估文生图模型生成像的质量通常涉及多个维度,其中包括视觉逼真度、语义一致性以及美学质量。以下是关于文生图模型美学评测的主要方法和指标: #### 1. 主观评价(Human Evaluation) 主观评价是最直接的方式之一,通过让评分者对生成像进行打分来衡量其美学价值。这种方法可以分为以下几种形式: - **偏好测试**:给定两组或多组像,评分者选择更喜欢的一组[^2]。 - **单项评分**:评分者基于特定标准(如清晰度、美感、创意等)为单张像打分。 尽管主观评价能有效捕捉人类审美倾向,但它也存在耗时长、成本高以及结果受个体差异影响较大的缺点。 #### 2. 客观数量化指标 为了弥补主观评价的不足,研究者开发了一系列客观数量化指标用于自动评估生成像的美学质量。常见的指标包括但不限于以下几个方面: ##### a. Fréchet Inception Distance (FID) FID 是一种广泛使用的生成对抗网络性能评估工具,它可以计算真实数据分布与生成样本之间的距离。虽然 FID 更侧重于整体相似性和多样性而非纯粹的艺术风格匹配程度,但在一定程度上也能间接反映出某些类型的美观特性[^3]。 ##### b. CLIPScore CLIPScore 结合了自然语言处理技术和计算机视觉技术的优势,利用预训练好的对比学习框架(Contrastive Language–Image Pre-training, CLIP),分别提取文本描述特征向量和片表示空间中的位置关系作为输入参数;最终输出一个介于0到1之间的小数用来表征两者间契合水平——数值越高表明二者越接近理想状态即既忠实还原原始指令又具备良好外观属性。 ##### c. LPIPS (Learned Perceptual Image Patch Similarity) LPIPS 考虑到了人眼感知上的细微差别,在低层次像素级误差基础上融入高层语义信息从而更加贴近实际用户体验效果。因此当应用于艺术创作领域内的作品评判环节时往往表现出色因为它们倾向于奖励那些具有强烈个人特色或者独特表达方式的画面构而不是单纯追求精确复制原物象外形轮廓而已。 ##### d. AMT (Amazon Mechanical Turk Tests) 有时也会借助众包平台比如 Amazon MTurk 来收集大量匿名用户的反馈意见进而得出统计意义上的结论有关某款产品或服务的整体受欢迎程度如何等等情况下的参考依据之一便是此类在线问卷调查活动所得出来的平均得分状况报告等内容资料来源说明如下所示。 #### 3. 综合考量因素 除了上述提到的一些具体的技术手段之外还需要注意到其他一些可能会影响最后评定结果的因素例如文化背景差异可能导致不同地区人群对于色彩搭配喜好偏向有所不同; 年龄性别职业等因素也可能造成各自偏爱不同类型题材内容的现象发生所以最好能够在设计实验方案之初就充分考虑到这些潜在变量并采取适当措施加以控制以便获得更为可靠稳定的测量值范围区间内合理估计目标群体普遍认可接受的标准阈限设定原则等方面的知识要点归纳总结起来就是一句话概括得好不好看不仅仅取决于算法本身还要考虑使用者的需求特点才行啊朋友们记住了吗哈哈😊 ```python import numpy as np from scipy.spatial.distance import cosine def calculate_fid(real_features, generated_features): mu_real = np.mean(real_features, axis=0) sigma_real = np.cov(real_features, rowvar=False) mu_gen = np.mean(generated_features, axis=0) sigma_gen = np.cov(generated_features, rowvar=False) fid_value = _compute_frechet_distance(mu_real, sigma_real, mu_gen, sigma_gen) return fid_value def _compute_frechet_distance(mu1, sigma1, mu2, sigma2, eps=1e-6): diff = mu1 - mu2 covmean, _ = linalg.sqrtm(sigma1.dot(sigma2), disp=False) if not np.isfinite(covmean).all(): msg = ('fid calculation produces singular product; ' 'adding %s to diagonal of cov estimates') % eps warnings.warn(msg) offset = np.eye(sigma1.shape[0]) * eps covmean = linalg.sqrtm((sigma1 + offset).dot(sigma2 + offset)) tr_covmean = np.trace(covmean) return (diff.dot(diff) + np.trace(sigma1) + np.trace(sigma2) - 2 * tr_covmean) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值