如何看待 Show-o 和 Transfusion 等 AR+Diffusion 的工作?

Show-o大致如下:

7399829a5f746fbee617018b7ebd9ec0.png

6e36721d1b6b4c3bcc1e47775b489f2b.png

作者:Mike Shou

链接:https://www.zhihu.com/question/665151133/answer/3608387516

来源:知乎

好久没来知乎了,简单总结下做这个工作的motivation:

1. 宏观来看,当下LLM和Diffusion,都太卷了,进入到靠公司堆资源的阶段。作为科研人员需要破局,更重要的是定义问题,如何将LLM/AR和Diffusion结合,就是一个under-explored的新问题,适合做科研。当下还比较早期,show-o/transfusion都肯定不是最终形态,期待大家一起来探索。show-o只有1.3B,也是为了大家更容易做改进。

2. 为什么结合LLM/AR和Diffusion,是个有意义的问题?

    a. 主要还是从第一性原理来考虑。最终的Foundation Model,我们觉得会是个大一统模型,既能做生成,也能做理解,生成和理解的能力相辅相成。输入和输出,都可以是interleaved的text, image, video等的随意组合。

    b. 最终的Foundation Model,会是只有AR没有Diffusion吗?现有的技术看来,Diffusion更快(不用像AR一步一步预测),生成效果也是Diffusion遥遥领先,AR不适合inpainting这种task,所以大概率,最终还是得有Diffusion。

    c. 所以从上面两个对最终形态的预测反推,我们觉得研究,如何用一个LLM同时做理解和生成,兼容AR和Diffusion,是个很有意义的问题

 此外,LLM/AR+Diffusion这是大方向上的,但真正做的时候,有一个更细节的问题大家也都关注到,那就是图像该用continuous还是discrete表征

    1. 对于这个问题本身,我并没有一个答案,有各种rationale后面可以再开展聊聊,很多还需实验验证。但一个可以观察到的现象是,尽管当下discrete diffusion很火,但真正在image generation做work的,清一色都是continuous diffusion,所以做show-o这个工作,一个目的也是初次探索,discrete diffusion是否在图像生成可比肩continuous diffusion,从下表结果看是可以的。

    2. 早期开始这个项目的时候,因为discrete diffusion我们还在试,我也建议过团队用continuous diffusion,不过团队同学把这个否了,理由是更希望对于text和image,用同样的loss模式(predict token index)。或许这样将来更容易scale up,我也不太确定但也没有坚持,因为没多久discrete diffusion我们也做通了。所以后续看到Transfusion这种continuous的特别高兴。

    3. 但其实不管generation这边用continuous还是discrete,理解那边最好的show-o模式,其实还是要用上Clip-ViT的表征。但值得注意的是,这可能并不能说明continuous比discrete的要好,只是说明Clip-ViT好,而Clip-ViT正好是continuous的:一个很重要的问题就是,我们当下的discrete image tokenizer没有像Clip那样用超大规模图文对训练,跟LLM align的还不太好。如果用上SPAE那种Pyramid,再加上大规模图文对训练,很可能discrete token的做image理解也会不错。

0b158f20f838ee1b4fde86339d059e3e.jpeg

 总之,不管是LLM/AR+Diffusion,还是连续 vs 离散,感觉都是非常有意义的科研问题,都挺早期的,值得探索。非常欢迎大家在这儿多多交流讨论。如果希望更深入的讨论,我们也建了个群,在show-o的GitHub上面可以找到。https://github.com/showlab/Show-o


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

7fa4b0ff54a4d1ee187e885c017ae3e5.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值