简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE

最新推荐文章于 2024-12-22 16:19:31 发布

PaperWeekly

最新推荐文章于 2024-12-22 16:19:31 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134343377

版权

FSQ（Finite Scalar Quantization）是一种简化VQ-VAE的方法，通过“四舍五入”实现向量量化，解决了VQ-VAE的训练问题，提供更快的收敛速度和更稳定的效果。FSQ的优势在于其简洁的实现，但可能在编码表大小较小时效果不如VQ-VAE。FSQ的适用性取决于模型的复杂度和编码表大小。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

正如 “XXX is all you need” 一样，有不少论文都以“简单得令人尴尬”命名（An Embarrassingly Simple XXX），但在笔者看来，这些论文大多数都是噱头多于实力。不过，笔者最近阅读到的一篇论文，真的让人不由得发出“简单得令人尴尬”的感叹～

论文的标题是《Finite Scalar Quantization: VQ-VAE Made Simple》[1]，顾名思义，这是一篇旨在用 FSQ（Finite Scalar Quantization）简化 VQ-VAE 的工作。随着生成模型、多模态 LLM 的逐渐流行，VQ-VAE 及其后续工作也作为“图像的 Tokenizer” 而“水涨船高”。然而，VQ-VAE 的训练本身也存在一些问题，而 FSQ 这篇论文则声称通过更简单的“四舍五入”就可以达到同样的目的，并且有着效果更好、收敛更快、训练更稳的优点。

FSQ 真有这么神奇？接下来我们一起学习一下。

首先，我们来了解一下 “VQ”。VQ 全称是 “Vector Quantize”，可以翻译为“向量量子化”或者“向量量化”，是指将无限、连续的编码向量映射为有限、离散的整数数字的一种技术。如果我们将 VQ 应用在自编码器的中间层，那么可以在压缩输入大小的同时，让编码结果成为一个离散的整数序列。

假设自编码器的重构损失能够让我们满意，那么这个整数序列就是原始图像的等价物，所有关于原始图像的操作都可以转化为整数序列上的操作。比如我们想训练图像生成模型，就只需要训练整数序列生成模型，而这跟本文生成等价，所以我们可以用它来训练一个 GPT，模型和流程都跟文本一模一样，训练完成后，我们就可以从 GPT 模型中采样整数序列，然后送到解码器中得到图像，从而完完成了图像生成模型的构建。

说白了，“VQ +自编码器”将任意输入都转化为跟文本一致的整数序列，统一了不同模态数据的输入形式，同时也统一了它们的处理和生成模型。

而这样的一个带有 VQ 功能的自编码器，就被称为 “VQ-VAE”。

早在四年前的文章《VQ-VAE的简明介绍：量子化自编码器》[2] 中我们就介绍过了 VQ-VAE，尽管被冠以 “VAE（Variational AutoEncoder）”之名，但它实际上跟 VAE 没啥关系，如上一节所说，它只是一个带有 VQ 功能的 AE（AutoEncoder）。

既然是 AE，那么有 encoder 和 decoder，一个普通的 AE 是这样的：

VQ-VAE 则稍微复杂一些：

让我们来逐步解释一下。首先，第一步是相同的，输入到 encoder 中，输出编码向量。然而，我们并不是直接将输入到 decoder 中，而是先维护一个编码向量表（Codebook），从中选取与最相近的一个送入到 decoder 中进行重构。由于编码表是有限的，所以我们也可以将实际的编码结果理解为一个整数（即与最相近的的 &

最低0.47元/天解锁文章