GigaGan框架和SwinIR框架对比

AI小夜

已于 2024-04-30 22:54:53 修改

阅读量1k

点赞数 15

文章标签： ai AIGC 语言模型

于 2024-04-30 22:42:28 首次发布

本文链接：https://blog.csdn.net/qiubt__123/article/details/138358010

版权

这里写自定义目录标题

为什么关注这两个模型
什么是 GigaGan 框架
什么是SwinIR框架
- 训练过程
- 优势和局限性
这两个框架的对比

为什么关注这两个模型

最近在看 AI 大模型的前沿技术。了解到 adobe 新出的 videogigagan 大模型支持用户上传一个比较模糊的视频，然后用 GigaGan 框架生成对应的高清晰度的视频，生成的效果非常不错。效果可以参考：https://videogigagandream.com/zh#VideoGigaGan-Collections。之前有在 replcaite 上看到图片修复的模型，它能支持将清晰度不高的照片进行还原。还原后的效果也很不错，了解后发现用的是 SwinIR 框架。如果将视频拆分为 1 秒 24 帧的图片，对每一帧的图片进行高清晰度化，理论上是不是也能达到类似的效果? 所以就想关注这两个模型背后用到的框架是怎么样的。

什么是 GigaGan 框架

“Gigapixel Generative Adversarial Network”，即“千兆像素生成对抗网络”

基本原理

生成式对抗网络（GAN）包括两个主要部分：生成器（Generator）和判别器（Discriminator）。生成器的任务是生成尽可能接近真实的图像，而判别器的任务则是区分生成的图像和真实图像。
这两个网络在训练过程中相互竞争：生成器试图“欺骗”判别器，而判别器则试图不被欺骗，准确识别出生成的图像。这种机制推动了生成器生成更高质量的图像。

训练过程

生成式对抗网络（GAN）的训练过程可以想象成一个画家（生成器）和一个鉴赏家（判别器）之间的博弈。

画家的任务：画家的目标是画出足以以假乱真的画作，让人们相信那是真的艺术作品。在GAN中，生成器（画家）的任务是创建看起来像真实数据的新数据。比如，如果我们在训练一个生成图片的GAN，生成器的目标就是创造出新的图片，这些图片看起来像是来自训练集的真实图片。
鉴赏家的任务：鉴赏家的工作是要分辨出哪些是真正的艺术品，哪些是伪造的。在GAN中，判别器（鉴赏家）的任务是判断输入的数据是真实的（来自真实数据集）还是假的（由生成器生成）。
训练过程：
步骤一：生成器尝试创作一张图片。
步骤二：判别器查看这张图片，尝试判断它是真实的还是由生成器制作的。
步骤三：根据判别器的判断结果，两个网络都会进行调整。如果生成器制作的图片骗过了判别器，那么生成器做得很好，会向这个方向继续改进；如果判别器正确识别出了生成的图片，那么判别器做得好，生成器则需要找到新的方法来改善其作品。
迭代优化：这个过程会不断重复，生成器和判别器都在不断学习和适应对方的策略。生成器不断提高其生成假图片的技术，而判别器则不断提高其识别真假图片的能力。
通过这样的对抗训练，生成器最终能够生成高质量、逼真的图片，判别器也能高效准确地区分真假图片。整个过程就像一场拉锯战，双方都在不断进步，最终达到一种动态平衡。

优势和局限性

GAN 的训练通常是挑战性的，需要仔细调整超参数和训练策略，以防止模式崩溃（mode collapse）或训练不稳定。
GAN 能够在多种任务中生成高质量的图像，例如图像合成、风格转换和超分辨率等。
优势：

GAN 能生成非常逼真的图像，特别是在人脸和自然景观等领域表现出色。
它提供了强大的生成能力，可以用于复杂的图像生成任务。
局限性：

GAN 训练过程可能非常不稳定，需要精心设计网络架构和损失函数。
对于超参数和训练数据的要求较高。

什么是SwinIR框架

Swin Transformer 是一种基于 Transformer 的架构，专为视觉任务设计。它通过在局部窗口内进行自注意力计算，有效减少了计算复杂性，同时允许跨窗口的信息交互。
Swin Transformer 的层次结构设计使其能够处理不同尺度的图像，从而适应各种分辨率的输入。

训练过程

正向传播
输入处理：在训练开始前，首先将输入数据（例如图像）预处理成模型所需的格式。对于 Swin Transformer，这通常意味着调整图像大小、归一化和可能的数据增强。
通过网络传播：输入数据被送入 Swin Transformer 的网络结构。Swin Transformer 的核心特征是其分层和窗口化的自注意力机制。在每一层，模型会对输入特征进行转换，逐步提取出更加复杂和高级的特征。每一层的输出都会成为下一层的输入。
损失计算
输出与真实标签比较：模型的输出通常是根据特定任务（如分类、分割等）而定的。输出会与真实的标签或数据进行比较，根据比较结果计算损失值。损失函数是衡量模型输出与实际数据之间差异的函数，常见的损失函数包括交叉熵损失（用于分类任务）和均方误差损失（用于回归任务）。
反向传播
计算梯度：一旦损失被计算出来，接下来就是使用反向传播算法来计算网络参数关于损失函数的梯度。反向传播从网络的输出层开始，逆向通过网络的每一层，利用链式法则逐层计算每个权重的梯度。
梯度是损失函数对每个参数的导数，它指示了损失函数随参数变化的方向和幅度。
参数更新
应用梯度下降：在计算出梯度后，使用梯度下降或其变体（如Adam、RMSprop等优化算法）来更新网络中的权重和偏置。梯度下降的基本思想是减少损失，具体做法是在梯度指向的方向上对参数进行调整，即向梯度的反方向更新参数。
学习率：学习率是控制梯度下降步长的超参数，它决定了在优化过程中每一步更新的幅度。过高的学习率可能导致训练过程不稳定，而过低的学习率则会导致训练速度过慢。
迭代优化
重复过程：上述过程在多个训练周期（epoch）中重复进行，每个周期都会处理整个或部分训练数据集。随着训练的进行，模型的参数逐渐调整，损失函数的值通常会逐渐降低，模型的表现（如准确度）也相应提高。
通过这种方式，Swin Transformer 和其他基于深度学习的模型能够从数据中学习到复杂的特征和模式，不断优化自己的表现，以更好地完成特定的视觉任务。

上述的过程有点难以理解，所以更通俗点的介绍是

输入数据：
首先，你给机器人看很多已经标记好是猫还是狗的图片。这就是训练数据。
机器人做出预测：
机器人看每一张图片，根据它当前的知识（模型参数），猜测图片是猫还是狗。
评估预测：
机器人的猜测和实际标签对比，看看它猜得对不对。这个对比过程通过一个数学公式（损失函数）来计算，这个公式可以告诉我们机器人猜错的程度。简单来说，就是计算机器人的错误有多严重。
学习从错误中改进：
接下来，机器人需要从错误中学习。这个通过反向传播来实现，它可以精确地告诉每一个“脑细胞”（模型参数）应该如何调整自己，以便下次能做出更好的预测。
每个脑细胞根据它对错误贡献的大小来调整，这种调整就是通过梯度下降算法来实现的。梯度就是指向损失（错误）增加最快的方向，梯度下降则是往这个方向的反向走，从而减少错误。
重复练习：
这个过程不断重复，每次机器人都会根据反馈调整自己的“脑细胞”。通过不断地练习，机器人的猜测会越来越准确。

优势和局限性

Swin Transformer 的训练与常规的深度学习模型类似，使用反向传播和梯度下降等方法进行优化。
它的模型参数可以通过预训练进一步优化，以适应特定的任务，如图像分类、目标检测或图像超分辨率。
优势：

Swin Transformer 在处理大规模视觉任务时，计算效率高，尤其适合于高分辨率图像。
它的多尺度特性使其在图像恢复和分析任务中表现出色，能够恢复图像的细节。
局限性：

虽然 Transformer 的计算复杂性已经通过 Swin Transformer 得到改进，但它仍然需要较大的计算资源，尤其是在训练大型模型时。
需要大量的训练数据来实现最佳性能。

这两个框架的对比

生成式对抗网络（GAN）和 Swin Transformer 在架构设计和应用目标上有根本的不同。GAN 侧重于通过竞争机制生成高质量图像，适用于任何需要高质量生成图像的场景。而 Swin Transformer 则侧重于通过 Transformer 架构提升视觉任务的处理效率和效果，特别适用于需要处理高分辨率图像或复杂视觉任务的场景。

AI小夜

关注

15
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
GigaGan框架和SwinIR框架对比

Gigapixel Generative Adversarial Network”，即“千兆像素生成对抗网络”Swin Transformer 是一种基于 Transformer 的架构，专为视觉任务设计。它通过在局部窗口内进行自注意力计算，有效减少了计算复杂性，同时允许跨窗口的信息交互。Swin Transformer 的层次结构设计使其能够处理不同尺度的图像，从而适应各种分辨率的输入。
复制链接

扫一扫