“闭门造车”之多模态模型方案浅谈

最新推荐文章于 2024-07-11 22:07:24 发布

PaperWeekly

最新推荐文章于 2024-07-11 22:07:24 发布

阅读量798

点赞数 17

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/136322834

版权

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

其实没那么简单。先看文本生成，事实上文本生成自始至终都只有一条主流路线，那就是语言模型，即建模条件概率，不论是最初的 n-gram 语言模型，还是后来的 Seq2Seq、GPT，都是这个条件概率的近似。

也就是说，一直以来，人们对“实现文本生成需要往哪个方向走”是很明确的，只是背后所用的模型有所不同，比如 LSTM、CNN、Attention 乃至最近复兴的线性 RNN 等。所以，文本生成确实可以 All in Transformer 来大力出奇迹，因为方向是标准的、清晰的。

然而，对于图像生成，并没有这样的“标准方向”。就本站所讨论过的图像生成模型，就有 VAE、GAN、Flow、Diffusion，还有小众的 EMB、PixelRNN/PixelCNN 等，这些方法的区分，并不是因为它们用了 RNN、CNN 或者 Attention 导致效果上的不同，而是建模理论就有根本差别。而造成图像生成手段多样化的根本原因，是对连续变量进行概率建模的困难性。

对于一个长度为的句子，它的每个都来自于一个有限的词表，因此本质上就是分类任务，在“神经网络的万能拟合能力 + Softmax”的组合下，理论上任何分类任务都可以精确建模，这就是文本生成背后的理论保证。

然而，我们通常会将图像看成是连续型向量，那么对于图像来说，就是一个实数，纵然我们也可以做同样的条件分解，那么又该如何建模呢？注意此时是一个概率密度，概率密度的必要条件是非负且积分为 1：

除了正态分布，我们还能写出几个积分恒为 1 的函数呢？而能写出的函数如正态分布，并不足以拟合任意复杂的分布。

说白了，神经网络是函数的万能拟合器，但不是概率密度的万能拟合器，这就是连续型变量做生成建模的本质困难，而图像生成的各种方案，本质上都是“各显神通”来绕过对概率密度的直接建模（除了 Flow）。但离散型变量不存在这个困难，因为离散型概率的约束是求和为 1，这通过 Softmax 就可以实现。

离散之路

这时候也许有读者会想：那么能不能将图像变成离散化的，然后套上文本生成的框架去做？确实可以，这是目前的主流思路之一（很可能没有“之一”）。

事实上，图像本来就是离散的，一幅大小的 RGB 图像，背后其实就是个 0～255 的整数，也就是说相当于长度为、vocab_size 为 256 的句子。

最低0.47元/天解锁文章

PaperWeekly

关注

17
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
“闭门造车”之多模态模型方案浅谈

©PaperWeekly 原创 ·作者 |苏剑林单位 |月之暗面研究方向 |NLP、神经网络这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来...
复制链接

扫一扫