“闭门造车”之多模态模型方案浅谈

f4a6de1fa9a96b947efb6f8e63e255d2.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法,或者说一些猜测。 

最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次点燃了不少人对多模态的热情,只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过,本文并非是为了凑这个热闹才发出来的,事实上其中的一些思考由来已久,最近才勉强捋顺了一下,遂想写出来跟大家交流一波,刚好碰上了两者的发布。 

事先声明,“闭门造车”一词并非自谦,笔者的大模型实践本就“乏善可陈”,而多模态实践更是几乎“一片空白”,本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

3dde2d3ff81a31805b95d4d37c18520e.png

问题背景

首先简化一下问题,本文所讨论的多模态,主要指图文混合的双模态,即输入和输出都可以是图文。可能有不少读者的第一感觉是:多模态模型难道不也是烧钱堆显卡,Transformer“一把梭”,最终“大力出奇迹”吗?

其实没那么简单。先看文本生成,事实上文本生成自始至终都只有一条主流路线,那就是语言模型,即建模条件概率 ,不论是最初的 n-gram 语言模型,还是后来的 Seq2Seq、GPT,都是这个条件概率的近似。

也就是说,一直以来,人们对“实现文本生成需要往哪个方向走”是很明确的,只是背后所用的模型有所不同,比如 LSTM、CNN、Attention 乃至最近复兴的线性 RNN 等。所以,文本生成确实可以 All in Transformer 来大力出奇迹,因为方向是标准的、清晰的。

然而,对于图像生成,并没有这样的“标准方向”。就本站所讨论过的图像生成模型,就有 VAE、GAN、Flow、Diffusion,还有小众的 EMB、PixelRNN/PixelCNN 等,这些方法的区分,并不是因为它们用了 RNN、CNN 或者 Attention 导致效果上的不同,而是建模理论就有根本差别。而造成图像生成手段多样化的根本原因,是对连续变量进行概率建模的困难性。

对于一个长度为 的句子 ,它的每个 都来自于一个有限的词表,因此 本质上就是分类任务,在“神经网络的万能拟合能力 + Softmax”的组合下,理论上任何分类任务都可以精确建模,这就是文本生成背后的理论保证。

然而,我们通常会将图像看成是连续型向量,那么对于图像来说, 就是一个实数,纵然我们也可以做同样的条件分解,那么又该如何建模 呢?注意此时 是一个概率密度,概率密度的必要条件是非负且积分为 1:

1fabea612343b2db9f86839dce1720f7.png

除了正态分布,我们还能写出几个积分恒为 1 的函数呢?而能写出的函数如正态分布,并不足以拟合任意复杂的分布。

说白了,神经网络是函数的万能拟合器,但不是概率密度的万能拟合器,这就是连续型变量做生成建模的本质困难,而图像生成的各种方案,本质上都是“各显神通”来绕过对概率密度的直接建模(除了 Flow)。但离散型变量不存在这个困难,因为离散型概率的约束是求和为 1,这通过 Softmax 就可以实现。

5c33b68e68637ea8032be24a85998e6f.png

离散之路

这时候也许有读者会想:那么能不能将图像变成离散化的,然后套上文本生成的框架去做?确实可以,这是目前的主流思路之一(很可能没有“之一”)。

事实上,图像本来就是离散的,一幅 大小的 RGB 图像,背后其实就是 个 0~255 的整数,也就是说相当于长度为 、vocab_size 为 256 的句子。

  • 17
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值