回顾·总结·展望「融合RL与LLM思想，探寻世界模型以迈向AGI」

最新推荐文章于 2024-07-18 15:59:44 发布

置顶吕小明么

最新推荐文章于 2024-07-18 15:59:44 发布

阅读量1.2k

点赞数 24

文章标签： agi 人工智能算法自然语言处理 AIGC

本文链接：https://blog.csdn.net/weixin_42619619/article/details/139133975

版权

导读：
距离整篇「融合RL与LLM思想，探寻世界模型以迈向AGI」文章完稿分享已经过去了差不多一个月时间，在这期间，不管是在AI产业界还是在学术界，几乎每天都在经历着一幕幕令人惊艳而又期待的变化，变化包括了对模型算法的一次次突破和创新，包括了算法创新背后所对应的基础理论上的新颖发现与洞察，包括了围绕算法技术创新上的诸多令人眼前一亮而又无比期待的原生应用场景，包括了不管是雄心壮志的各大厂还是精而美的各小厂的深化布局与技备竞赛，还包括了人们对当前AIGC下的LLM到AI4S再到AGI的不同程度、不同视角的社会观点甚至是论战。在这一次次变化之中，可以明显的看到各行各业各圈各域对于AI明显的认知变化与思想迭代。
因此，不管是回顾以往，总结当下，又或者是展望未来，决定针对「融合RL与LLM思想，探寻世界模型以迈向AGI」这篇达10万字小作文做一下MARK，一方面是在继上一次终稿发布时所经历的1个多月时间结合新事件和作者理解进行一次内容上的再版更新并同步给读者；一方面是因整篇文章比较冗长，且作者平常更多是利用工作之余的碎片时间在尽量保证内容质量下随思而写，内容表述逻辑性和完整性可能会有一些错误，因此再整体总结并阐明一下写作本篇系列文章的初衷、目的和核心概要内容；一方面也是希望能够承上启下，参照依据本篇文章对底层算法技术与之对应的背后潜在理论的猜想洞察，展望并决定接下来尝试探索的方向和内容，也算是跟大伙做一些预告和铺垫。
本文原创作者：吕明
Wechat：lvming6755
知乎：吕明 - 知乎

内容回顾&再版更新

本次内容为结合近期AI产业界与学术界的快速发展之下，针对系列文章「融合RL与LLM思想 · 探寻世界模型迈向AGI 」内容的精修与更新整合，前三篇历史发布内容大家可回顾参考如下：

融合RL与LLM思想，探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想，探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想，探寻世界模型以迈向AGI「下篇」

合集PDF版本v6.2已更新，大家可访问百度网盘地址自行下载：

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载：

内容正文

目的

下面列出了最开始决定撰写此篇文章时我的一些想法目的，并结合最近发生在产业与学术界的事件，希望通过一种 慢思考 · 广思验 · 快实践的探索方式更进一步总结并探寻当下LLM技术发展到AGI的可能发展路径，大家可以结合着我在 「上篇」和 「中/下篇」中的部分章节内容，简单思考和回味下如下问题，或许会存在一些大家的想要的答案或期待能提供些许指引，也希望能起到抛砖引玉的作用，意在激发大家能够在今后的深度思考、思想实验、工作实践中按照自己的方式进行答案的持续探寻...
ps：在之前的公众号后台互动环节中，也有不少小伙伴围绕systemⅠ&Ⅱ、RL&LLM等融合问题给出了一些自己的观点和思考并进行了广泛的讨论，在此非常感谢大家的关注与所提供的非凡想法！感兴趣的小伙伴也可以继续精读回顾，并非常希望提出建设性的建议与批评，这样大家才能互相进步不是嘛？哈哈！

目的Ⅰ：探究以泛GPT为代表的预训练自回归编码模型(即LLM)与Alpha系列为代表的RL，再到Sora为代表的DiT视觉生成领域模型的本质普遍性及表象差异性，以及为什么要将其两者或三者联系甚至融合起来看待？

本质上是尝试对比采用上述三种模型结构或算法思想对真实世界中拟合的各种认知模式过程中所对应的数据分布或构象的探究 · 这里的分布或构象的本质包括对真实世界中所蕴含的自然物理规律认知模式、基于现实抽象的概念认知模式、抽象的形式化逻辑认知模式、复杂的个体生物&群体社会行为认知模式等呈现并映射的多样化流形数据进行模拟分布表示 - 这部分请参见「中篇」中对于LLM与RL融合章节最后的观点阐释部分。其过程的本质是运用抽象各种数学变换(如拉式变换/傅里叶变换/Z变换/希尔伯特变换等多种数学变换方法实现微分方程→普通多项式代数方程)的求解，即在神经网络中，通过对可微（学习）的激活函数进行梯度拟合近似，如激活函数在网络中被参数化为多项式、样条、sigmoid线性单元或神经网络等。

因此，对于不同领域真实世界所呈现并表示的数据流形分布在数据维度、模态以及流形轨迹的多样化上，导致了采用不同的训练模式（如自回归预训练模式 vs 强化学习模式）与采用的不同数学变换方法或者所采用的多样激活函数及激活形式的（如Multilayer Perceptron - MLP vs Kolmogorov-Arnold Networks - KAN）不同，甚至是在神经网络训练与推理过程中建立起符号思想与连接思想的融合与平衡。

另外上述在不同的真实世界领域内，通过实践，存在着跨领域的流形分布的可迁移性，即多个空间中的普遍泛化可迁移性，即跨领域泛化能力的移植，领域间也许也存在着背后底层的在概念化、形式化更广泛的联系（多模态本身也是建立在这种跨模态领域间泛化能力可迁移的基础上的）。因此，考虑到未来AGI这种更强的通用性以及在跨领域的超凡泛化与推理能力构建上，也许这也是为什么作者当时要考虑将多种不同模型以及背后所采用的不同训练机制或模型结构进行一番探究分析的原因，用以尝试探寻或论证通往AGI的一种可能路径，当然也是此篇文章撰写的其中缘由之一。

目的Ⅱ：鉴于LLM与RL两者间的差异化能力考量，业内不少的思路尝试将两种方法结合在一起，但结合后要么看着不是很巧妙，要不就是看起来很僵硬，总感觉像是一个过渡性的结合，并且看起来并没有以终为始，也不是原生的思想与方法的融合，因此想要尝试探寻一下两种学习方法是否能更巧妙的相互结合与统一。

当前业内产业界或学术界均在逐步探索对于LLM采用强化学习思想进行其推理能力的延展，包括「上篇」中提到的Algorithm Distillation所运用的思想和方法，基于各种XoT思想的Agent或Muti-Agent框架，包括一些基于Agent框架思想下的复杂场景化模型优化的尝试，如Google之前推出的AMIE学习框架再到Med-Gemini、前不久的清华大学AI医院小镇（论文地址：https://arxiv.org/pdf/2405.02957）以及近期MIT提出的基于博弈论思想改进提升LLM生成能力准确性与内部一致性的尝试（论文地址：https://openreview.net/forum?id=n9xeGcI4Yg），甚至之前OpenAI传的神神秘秘的Q*项目。

在这里，除了我们不可知的Q*之外，其它上述思想或方法均是对LLM在某个特定场景的深度推理能力探索的一撇，通过以各种XoT规划形式搭建起的Agent框架，来完成复杂任务的推理过程或用于构建后续模型持续进行过程奖励学习的SFT数据集。然而当前作者认为在模型训练机制搭建、推理框架模式以及对应的数据生成模拟构造上在通用性与普适性上并没有形成统一、完备、高效的范式，同时尤其针对后续的模型隐状态的持续强化训练策略并没有相关完备的通用场景验证或技术理论支撑（对比当初ChatGPT论文发布之初相对简单、清晰的Pre-traning→SFT→RLHF模型生产路径）。

因此，在「中篇」里，针对LLM与RL的融合章节中，针对此部分尝试性的进行了一些自己的思考和探索，希望未来能够持续探索并找到能构建出一个全局的认知流形挖掘模式，基于容纳了RL思想的深度探索推理学习范式，以LLM通用预训练的方式继续将scaling law进行下去...

目的Ⅲ：探究思维系统的两种推理模式：系统Ⅰ（快思考）和系统Ⅱ（慢思考）在推理过程的本质普遍性及表象差异性，以及快慢思考是否与两类学习方法（LLM/RL）存在着某种关联？Agent在其中的内涵与定位是什么？

这部分可以部分参考上述内容，首先作者在本篇文章关于system1·快思考与system2·慢思考上，认为两种思考模式或是推理模式对于不管是人类大脑还是机器大脑，在某种底层逻辑上本质是相同的，如不管是在底层所采的模型结构或数学变换在不同计算域的训练拟合、还是不同激活函数最终的损失目标对齐上，甚至对模型的训练或采用不同任务类型与训练范式上所呈现的底层tokenize数据流形分布表象差异和本质统一上，均存在着本质上的同构（这里的同构取自群论中两个群在底层数学运算结构上所具有的同构性）。

而这里的LLM与RL即是所对应的上述两种不同类型的模型算法与任务训练范式。Agent则可看成为某个复杂·认知流形中的衔接上下游不同流行分布的解析者、转换者、代理者或信号传递与激活者。

目的Ⅳ：探究Prompt对于LLM来说其意义是什么，Prompt Learning给我们的更深一层的提示是什么？

这里作者希望能够将Prompt置身于一个更全局的视角来看待：将Prompt视为在真实世界中认知流形所映射表征为数据流形分布中时空结构的前一部分，即可以将其看待为任何领域时空下的前置流形分布（或者称之为对下游流形分布的前置条件），需要关注于这种“前置”作为整体数据流形或认知流形的组成与影响，其控制着整体全局流形的分布与轨迹。

另外一方面，从整体模型推理全局视角来看，对于Xn+M>Yn来说，Xn+Yn可作为整体广义层面的认知数据流形分布来看待，其中M作为模型节点，用于对齐衔接Xn到Yn的流形分布（在现实中人们的认知不可避免的总是进行着通过Xn+M对Yn进行着预测或判断）。在本篇文章中我们之前将目光更多聚焦在M之后的Yn，并探索Yn在生成的内容上所体现出在system1与system2间不同复杂流形分布在复杂推理模式上的差异和本质上的等价（当然这里的探索初衷是希望能够合理、平滑的构建出其中的M，以对齐衔接system1与system2内部和之间的不同的复杂信息结构）。而反观对于Xn确很少讨论，作者认为其本身应与Yn有着同等的研究探索价值，如在当下热度比较高的长文本LLM推理的运用上。

而我想这里的潜在探索也不仅仅局限于上下文长文本，而应更深入的聚焦于Xn自身所有蕴含的复杂信息结构或其流形分布（确切地说所蕴含着的类似于system1和system2那种复杂推理思想与综合决策状态下丰富而繁杂的信息结构或分布流形）的探索与研究上，同时，需考虑在与具备同等复杂度的Yn（生成输出侧）之间相互作用于不同时空或不同模态的鬼魅般的纠缠上（如Prompt工程，step by step提示，甚至是以XOT为思想的Agent延伸），两者间与M的关系一定存在着更深邃的内涵联系。而我相信随着继续对其进行深入的研究与探索，也能在未来的模型算法（M）所采用的网络结构或数学方法进一步改进创新提供响应的理论依据。如针对不同模态、时空结构所表征的真实世界所采用的更为适配的模型结构或算法，如Sora的Diffusion与LLM的Transformer。

目的Ⅴ：搞清楚模型对知识或模式的学习与迁移对于泛化意味什么？

相信大家对泛化性作为大语言模型LLM的重要能力已经非常了解了 - 这也是当前LLM体现出令人惊呼的通用涌现能力的基础前提，这里不再过多赘述，但作者仍希望大家对泛化能力本身结合领域问题进行更发散甚至是更激进一些的思考延展。比如泛化能力是否具备天然分层的特性？泛化本身在真实世界各领域中是否存在一定的结构特异性等等，即不同领域间的进一步泛化可能。我想在掌握了这方面对于泛化本身更深层次的了解或者仅仅是直觉上的感知也好，在未来针对更复杂的认知模式探索过程中对于模型所采用的训练模式、学习任务、计算方法等将会有着非常重要的指导作用。

目的Ⅵ：LLM的路径是否能达到一个真正意义上的世界模型WM并成为AGI甚至是ASI吗？WHY？HOW？

作者认为：LLM所采用的自回归学习方式为大规模的非监督预训练提供了非常适合的训练模式，同时此种训练模式与自然语言这种作为人类上千年所创造并沿用至今的结构灵活、语义丰富的符号化表征工具是高度匹配且自适的（当然这里大概率是基于人类基于构筑的语言学在充分的理解自然语言的结构特征与语义表达的特性基础上，洞察并创造的对应训练模式，如早期的word2vec，CBOW，Skip Gram...的尝试及运用），而且作为当前人类所记录、积累的全网文本数据或线下纸质记录文字所覆盖的内容广度在当下LLM演进的窗口下与scaling law又是天然契合的。但我们仍需要清醒的认识自然语言本身对真实物理世界中所囊括蕴含的事物描述或表征的局限性，如抽象的代数运算、几何空间构型、形式化的逻辑推理与证明、再到多模态的这些世界表征。

这里针对Sora这种针对CV视觉模态的模型有必要跟大家进行一下说明：我们知道Sora是采用的DiT的模型结构并采用类似的预训练方法完成的模型训练，并在其中采用了petches作为语言符号的token来进行嵌入表征。而之所以采用类似LLM预训练方法，作者认为其CV数据与语言文本数据在其时空结构上对于模型训练任务来说也许在某种程度的本质上是同构的，且人类也积累了丰富的CV数据。因此人们能够相对容易的将LLM的很多训练方法和技巧通过某种调整优化或变化快速的移植到Sora训练的过程当中来。而涉及到复杂的推理范畴，其内部所蕴含的结构或路径或构象也许与人类现存的自然语言文本记录在所表达的在认知维度的时空结构上存在着很大不同，但是否在某种程度上也存在本质上的同构呢？因此才有了作者将LLM与RL思想相融合统一探索的想法。

目的Ⅶ：AI4S是否能带来科学突破？不光是改变研究范式，甚至是触达到探索知识的另一片天空之城？

作者认为是一定的且意义非凡的，感兴趣的读者可参考回顾「下篇」当中的几个AI4S探索的例子，包括：

精神的助产士 · 苏格拉底式问答法
华人数学家陶哲轩在天空之城的探索模式
欧几里德的助手 · AI4S之AlphaGeometry
"KAN" AI 4 Science?
为什么说这次AlphaFold3再次意义非凡？
Q*猜想
P vs. NP 的五十年

初心

终于...在年后繁忙的工作与生活交织拉扯当中，今天完成了全篇内容的撰写，同时十分抱歉因为写作过程中诸多欠考虑因素，可能会造成篇幅仍过于冗长、繁杂的阅读体会，而且在内容的表述和思考的阐释过程中，如上篇最后体会中所说，我自己感觉仍没有找到一个更加适合的形式化表达工具或方法来阐释核心要点内容，即通过文字语言的形式。再次跟大家抱歉！

在写完这篇文章外加最近外界的诸多新闻，似乎更坚定了我对AGI实现的确定性，因此回到我最初想要写这篇文章前其中的一个非常重要的目的同时也非常迫切的希望我们需尽快完善AI进行综合安全监管和治理上的考虑，正如Hitton的担忧与后悔：自己正在成为下一个曼哈顿计划的始作俑者，包括我们每一个人，包括我自己。

不管未来的AGI的实现路径是基于LLMs自回归一直暴力scaling prediction下去，还是沿着LeCun的“世界模型”路径缓慢摸索前进，还是即将到来的下一代GPT中出现了真正通往AGI的Q-star，亦或sora变成了真正的世界模拟器，我想不管人类最终探索出上述通往AGI路途中的哪种路径，采用那种模型结构，运用哪些数学变换方法，还是最终找到了创造无限的数据构象分布并建立全域pattern的可能，最终结合本文回归第一性原理的思考，在这个世界中推理认知的模式和对人类产生的影响的本质方面，我想都是值得我们每一位伙伴深思并做出正确的人类发展历程中的决定的。

目前，看起来现在已经没有什么能够阻止奥特曼率领的OpenAI大跨步迈向AGI前进了，而其所尊崇的scaling law也许会成为阻止其吞噬真实世界的最后屏障，而此scaling law也许非彼scaling law，即在自然法则下无休止的scaling law也许存在并不被允许的law，就像在我们的真实世界中并没有演化出无限制scaling的超级个体一样，也许这个世界还存在着另一个restricting law吧。

思考

最近越来越觉得在AI认知领域中的人们对模型结构的洞察和尝试、对计算与数学方法的理解和运用、对信息/数据的分布、对认知过程与行为现象的阐释，可能真的只是冰山中一角中的一角，而这一角也让我们陷入了不可避免的过拟合的境地，比如：我们人类大脑内部信号的网络传播轨迹整体上是正向的吗？这里的方向本质上意味什么？MLP相比于KAN难道就更连接主义吗？相反KAN相比于MLP就更符号化吗？符号主义的所谓精确计算与连接主义的逼近模拟计算两者间从计算本质和数学本质上未来是否可以统一？一味的追求scaling law在更广的尺度中是要持续遵循的吗？

就像人们常说的：“人类大脑的开发程度通常被认为不足10%”，大伙觉得人类对AI的开发程度是多少呢？

即使是LM这种天然的序列结构，为何要受限于当前LLM的自回归（AR）下的next token predict呢？diffusion下的token generation不香么？

尤其是在未来尝试e2e的system②·慢思考好比在进行像我们人类的某种思维框架下的头脑风暴的推理过程中的那样，难道是因为在这个所处的真实世界中所呈现的数据模态与结构的不同？或者所面对不同推理任务（包括认知模式，运行机制，物理规律，甚至隐式的类MCTS探索式决策模式..）的流形表征的差异并影响约束了其模型本身的结构及对应所采用底层不同的数学变换与方法的受限？

ps：是的，在这里并不是指的在非模型网络内部（中间隐层）的激活传播过程方法的思考，而是特定针对sora与gpt两种模型在训练和推理过程中数据模态或任务模式差异上出发的思考；

其实还有很多其它的问题思考延展，这里卖个关子，感兴趣的读者可以阅读公众号以往的文章或关注作者知乎了解更多~:)

知乎：吕明 - 知乎

展望

本系列文章的「下篇」于上周进行了终稿的更新发布「通往AGI 的System2·慢思考·快实践」，就像上述的写作“初衷”以及本篇开头所向大家呈现的“目的”那样，我想对于身处不同行业，不同工作岗位，进行不同的研究任务，面对不同客户群体的大伙或多或少也都有一些自己的理解和感悟，同时自己在历经一个季度坚持写完全篇近10万字内容的过程中，也对某些算法技术领域中的一些问题、挑战和局限性有着更加深刻和全新的理解。并在此过程中，能够以一个更加全局的认知视角洞悉到当下和未来的LLM或者泛AIGC大模型相关技术和思想内涵。— 就像柏拉图「理想国」当中的“洞穴之喻”中火光照射到墙壁上的投影的情景，当其中的囚徒转身迈向洞口看到阳光下真实世界的样子之后所带来的震撼与希望的样子。因此，我非常希望并且荣幸能够像那位走出洞穴的囚徒一样，将自己视角所看到的一些内容与观点尽快与大家分享，虽然肯定会存在一些观点或认知上的偏颇，但总比没有的好，而且我认为或许至少也能够在未来促进大家相互之间更广泛的思想讨论与观点共享。— 就像上周末Ilya Sutskever在正式离开OpenAI之后第一时间点赞的那篇「The Platonic Representation Hypothesis」中所描述的真实世界中的Z所映射的不同模态的投影那样（这里的不同模态的投影可以理解为各位同学对LLM认知刻画上的百花齐放）。因此，我想，在大家充分的刻画并还原对齐了当下LLM或者泛AIGC大模型的认知之后，相信大家就能够非常轻松、自然且平和的心态通过以第一性原理思考的思维角度，去看待当下LLM未来的算法与技术迭代、未来的AI原生应用重构、ToC/ToB的产业商业化的问题。

在本系列文章当中，我从「探究RL与LLM的融合」到「AI4S的范式创新」再到「AGI的探索」处于LLM趋势与洞察的其中一个子领域来切入，希望能够探寻到当下LLM或泛AIGC大模型技术背后的一些本质内涵，当然也是希望能够在充分了解现象背后的本质后，能够对于未来围绕LLM带给我们这个世界哪些改变甚至是变革做一些铺垫和准备。因为我始终认为只有在更加充分的了解LLM技术的内涵与背后的底层逻辑后，其才能够与我们、与世界进行接入并能够更高效、更简单、更便捷的围绕它重构出不一样的产品应用、生产力工具以及未来全新的智能世界组成。

最近围绕大模型技术的原生应用重构事件与发布也是非常的火爆，包括上周各大厂的如OpenAI的“HER”，Google的AI全家桶，昨天微软的一揽子Copilot工具栈，还有使我非常自豪的我厂的MMA-Builder三件套！以及基于传统移动互联网产品的诸多LLM增强型服务创新（搜索、电商、社交、内容..）,另外诸以如月之暗面为代表的新一代原生认知型应用KIMI，甚至包含未深入应用于产业的场景...因此，接下来，我将尝试基于个人当前对LLM的认识与理解，围绕未来LLM的上层原生应用的重构以及泛AIGC大模型为我们这个世界带来哪些商业价值和产业变革继续进行慢思考、广思验、快实践，尝试规划撰写另一篇10万字的文章(或许内容会超过10W...555)，以希望能够继续保持这份初心探寻到一些本质上的东西。并期望能够持续通过厂内“术说”栏目(度厂的技术内容分享平台)、公众号、知乎&CSDN等个人博客第一时间向厂内、厂外伙伴们分享（当然作者非常希望能够在本Q中成功留级不被毕业的情况下继续通过“术说”与厂内的同学们继续保持沟通，当然如果出现一些小插曲，我也将继续与厂内“术说”栏目持续沟通并分享内容，各位同学也可以加我私人联系方式或社交网络互动）

融合RL与LLM思想，探寻世界模型以迈向AGI文章暂告一段落，后续将筹划构思上述所提及的另一篇文章，当然，随着技术和市场的快速迭代与发展，再遇到更多前沿算法与技术上的有价值内容时，我也将随时在公众号或个人博客上及时mark自己的想法和阐释，也希望大家能继续吃着火锅抛着砖~百家争鸣学术探讨嘛~hhhh:)，我会喝着可乐解着腻等着大家抛来的砖。

吕小明么

关注

24
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
回顾·总结·展望「融合RL与LLM思想，探寻世界模型以迈向AGI」

不管是回顾以往，总结当下，又或者是展望未来，决定针对「融合RL与LLM思想，探寻世界模型以迈向AGI」这篇达10万字小作文做一下MARK..一方面是在继上一次终稿发布时所经历的1个多月时间结合新事件和作者理解进行一次内容上的再版更新并同步给读者；一方面是因整篇文章比较冗长，且作者平常更多是利用工作之余的碎片时间在尽量保证内容质量下随思而写，内容表述逻辑性和完整性可能会有一些错误，因此再整体总结并阐明一下写作本篇系列文章的初衷、目的和核心概要内容；一方面也是希望能够承上启下，参照依据本篇文章对底层算法技术与之
复制链接

扫一扫