我在Performer中发现了Transformer-VQ的踪迹

最新推荐文章于 2025-05-23 02:23:01 发布

PaperWeekly

最新推荐文章于 2025-05-23 02:23:01 发布

阅读量1k

点赞数 20

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/135614662

版权

本文探讨了Transformer-VQ如何通过VQ近似实现线性Attention，并提出Performer可以被视为软版本的Transformer-VQ。通过类比Performer的推导，作者揭示了Transformer-VQ的新推导方式，利用狄拉克函数和GMM近似得到有限维线性Attention。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

前些天我们在《VQ一下Key，Transformer的复杂度就变成线性了》介绍了“Transformer-VQ”，这是通过将 Key 序列做 VQ（Vector Quantize）变换来实现 Attention 复杂度线性化的方案。

诚然，Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡，给人一种“大道至简”的美感，但熟悉 VQ 的读者应该能感觉到，当编码表大小或者模型参数量进一步增加时，VQ 很可能会成为效果提升的瓶颈，因为它通过 STE（Straight-Through Estimator）估计的梯度大概率是次优的（FSQ 的实验结果也算是提供了一些佐证）。

此外，Transformer-VQ 为了使训练效率也线性化所做的梯度截断，也可能成为将来的效果瓶颈之一。

为此，笔者花了一些时间思考可以替代掉 VQ 的线性化思路。从 Transformer-VQ 的形式中，笔者联想到了 Performer，继而“顺藤摸瓜”地发现原来 Performer 可以视为 Soft 版的 Transformer-VQ。进一步地，笔者尝试类比 Performer 的推导方法来重新导出 Transformer-VQ，为其后的优化提供一些参考结果。