世界模型融合与统一深度思考：自回归与扩散生成

吕小明么

于 2024-10-30 15:11:42 发布

阅读量482

点赞数 5

文章标签：人工智能 AIGC agi 算法神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42619619/article/details/143365767

版权

最近不管是在视觉领域还是文本领域，在Transformer下的自解码AR自回归还是Diffusion的扩散生成之间都在发生着不少的变化与演进，包括从文本生成和system2复杂推理的AR条件预测向扩散机制的演进，再到图像/视频扩散生成“自回归”到next token prediction的统一。

对于上述前者的演进路径，随着Sora的问世和扩散思想的大行其道，我们看到了诸多围绕文本的扩散合成方法并取得的SOTA效果：

- 包括来自MIT的Diffusion Forcing；

- Meta的Transfusion；

- 来自TPAMI2024的Diffusion Mechanism in Residual Neural Network: Theory and Applications；

- 以及近期哈佛等欧美多所名校的学者在机器学习和生物学的融合研究中，所揭示的“扩散模型与进化算法”观点；

ps：以上内容之前我的历史笔记均匀论述，感兴趣的大伙可翻看之前笔记或文章。

然而最近这两周，我们看到事情似乎正在朝着相反的演进路径发展：

- 包括“谢赛宁所提出的表征对齐技术-REPA”中对自监督视觉编码下的高质量表征对扩散生成任务的重要意义；

- 智源研究院于上周正式发布的Emu3所建立的横跨文本/图像/视频next token prediction端到端统一的原生“世界模型”；

- 紧随其后谷歌联合MIT发布的Fluid，进一步探索了文本符号与视觉信息不同模

最低0.47元/天解锁文章

博客等级

码龄7年

116
原创

1092
点赞

1023
收藏

780
粉丝

关注

私信

热门文章

最新评论

来自身边小伙伴的LLMs+Agent成果：AFlow
m0_59775782: 想加群
DeepMind最新研究：逆向思维·RevThink“逆”思考下的深刻内涵与重大意义
kono3990: 我认为，人类在使用思维技巧的时候往往不会特意声明。比如说我要反推一下，很多时候只在人脑中想了一下，然后写在书面上的还是正向过程。这就导致大模型丢失了大量的隐藏技巧的权重。大模型不是完全不知道反推，只是它不够重视。用某种方式进行补强之后，当然会提升思维能力。无论是调整权重，还是增加了一些步骤。本质上都是让大模型重视起来那些忽略的部分。这些调整导致的进步很明显，说明了一个问题，基础的思维技巧并不多。所以接下来可以人工打上这些补丁。说不定10多个补丁之后， Ai就和人脑一样好用了。
百川&北大：LLM对齐技术工程化思想·上
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LLM下的「幻觉」vs「泛化」
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
「上篇」融合RL与LLM思想，探寻世界模型以迈向AGI
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618615900。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。