一年前 LLM & AGI 碎片化思考与回顾系列④ · System2慢思考下的暴力美学

最新推荐文章于 2024-07-20 06:19:20 发布

吕小明么

最新推荐文章于 2024-07-20 06:19:20 发布

阅读量931

点赞数 21

文章标签： agi 人工智能大数据 AIGC 算法

本文链接：https://blog.csdn.net/weixin_42619619/article/details/139709318

版权

阅读提示：

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成，在内容上，与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想，探寻世界模型以迈向AGI」间有着非常紧密的联系，可以说，这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀，当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程，才促成我最终完成那篇看上去并不是特别易读的文章。
因此，这个系列文章将以笔记的形式，去重新回顾体会一下自己去年的这些碎片化思考与探索历程，并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点，一方面作为那篇长文阅读的补充参考，并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上，因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化，我将按照时间线顺序向大家呈现一年前自己的想法，内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是，因为保持了原始记录时内容的不变（仅修改笔记上的笔误与错字），一年前的想法跟当前的认知可能会有较大的差异和改变，也会存在一些不成熟观点，千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点，当然坦率地说，自己确实也在回顾中针对某些想法有了新的思路！如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了！
最后，为了不让这个系列笔记显得不那么单调，在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片，有吃喝玩乐，有学术美图，也有搞笑娱乐。

「2023年06月08日 · System2之窥」

站在今天的视角来看，感觉一年前关于system2·慢思考的探索与思考历程进入了深海区的探索历程中，在这一历程中，每天都会有一些新的“观点”与“尝试”。继续回到一年前，基于上一篇“system2·慢思考”存在于心中的一些疑惑并尝试窥见触发到的一些碎片化灵感继续像大家向大家分享

记录正文 ↓

上接0602-system2之疑，针对于system2 的COT或TOT等思维链端到端的尝试性窥见：因对于模型的两端，输入侧（input）与生成侧（output）均是在语言符号这样的开放性tokenize空间中编织merge在一起的，直觉上与当前LLM·system1的自回归next token predict在推理本质是等价的，稍有一点的差别也许是连续token的生成所表征的对象或模式复杂度会更抽象一些，且在经过合理且理想化的学习与训练框架之后，不论体现在显性的内容生成的过程+结果（output）上还是将其中的过程隐含在模型网络神经元的激活传递中，其中均蕴含着复杂而多样的长链过程模式（patterns）。

但是需要注意的是：虽然模型中间隐层中神经元激活信号传递路径中的信息变换过程中（本质上是数学变换）仍是黑盒不可解释的，但与真实世界中的形式化显性模式所蕴含的中间过程与最终结果的因果链间应该是能够近似拟合的，即被其中模型参数中间隐层与输出层信息熵间数学变换所拟合。

另外，对于E2E的system2的推理模型网络结构的选择与设计，可能需要依据直觉或稍加理性经验（类似transformer那种类人注意力机制的理性洞察）对网络结构进行重新设计与调整，attention也好，moe也罢，甚至在muti-head层进行改良，或者对自回归AR式的next token prediction的序列预测进行其它，使得针对关键token的关键组合被模型有效捕捉到并传递遍布到多层或更宽广的神经网络上，我想分析数学与拓扑学更深刻的理论支撑或两者结合，能够在未来帮我们对神经网络结构的更进一步的探索理解与创新设计带来非常大的帮助。同时，对于模型训练任务与目标的重新定义与改进或对反向传播算法加入某种先验（非预测下一个token的方式）是否也可以更好的满足对system2的E2E的训练优化呢？

「本篇配图」

站在今天的视角来看，感觉一年前关于system2·慢思考的探索与思考历程进入了深海区的探索历程中，在这一历程中，每天都会有一些新的“观点”与“尝试”。就像我们去某个从未去过的地方所看到的当地不一样的生活景象与美食一样，是的，美食。

因此这次为大家分享的美食是自己曾经亲身到访过各地很少尝试的相对小众化的吃食，其中不乏已经成为当地网红..当然也有对于各位小伙伴来说很小众化但对我来说可谓伴随我长大的一道美食：

① 缙云烧饼：甜与咸的有一次完美融合；
② 伴川：西北碳水下江南；
③ 羊汤：蛋白/油脂/水的完美交融沁润；
④ 炒肝：灵魂的勾芡锁住蒜香的浓郁；

「2023年06月09日 · system2慢思考下的暴力美学」

继续回到一年前，基于昨日“system2之窥”存在于心中的一些疑惑并尝试窥见触发到的一些碎片化灵感，本篇笔记将顺着system1与system2的一些本质问题继续通过慢思考的探索模式来尝试进行思维的扩散，并期待在其中过滤并把握住一些灵感：

关于知识增强与E2E COT深度推理，顺着前几日的E2E COT之思考...

最近结合本职工作在尝试思考大模型在医疗场景的大规模alignment方面时，以及医疗领域的post-training的传统知识增强模式，直觉上似乎洞察到了一些不同以往的精细化知识增强的简单粗暴式知识增强范式的转变...这两种范式在转变过程中似乎在训练任务的构造，知识或模式的范围，目标反馈的形式上看似表面上有着很大不同，但其本质上也许是等同的。而这似乎又对system2的e2e的对齐训练有着一定的启发..

这种知识增强模式与system2的e2e训练过程也许本质上是相同的，即system2的e2e在做对齐时也是一种对模型本身的知识的增强（扩展），并将知识（思维链模式）压缩进模型网络参数中。接着又深入思考了下类system2的这种“知识”增强所隐含在模型中的内涵与在推理与训练过程中所遵循的相关直觉判断：如模型内部结构与参数量（宽度和深度）、非线性激活的意义、模型参数所承载压缩的知识范围、知识抽象的结构-不同于表象的这种知识增强，或叫“模式增强”？

在对system2或其它领域模式下的训练任务构造与设计方面，这部分是否从pre training阶段开始还是在所谓的RLHF alignment阶段进行呢？前者更多直觉上判断是对具象化知识（低级特征）tokenize的空间知识的压缩，后者则是抽象知识或模式（高级特征）在推理压缩的归纳，我想要更进一步搞清这一问题，则需要持续对pre-training和post training两种训练模式所囊括的对全局优化目标、全局特征分布、领域推理模式等进行更深刻的探寻与思考。

有一个思考点这里记录下：在system2的e2e深推理范式下，这种抽象能力的归纳又会激发出更多的信息熵（产生丰富的知识与模式），因此对应到未来深入模型网络结构设计的考量是不是要针对深度推理链所衍生的思维模式上所对应的线性与非线性变换呢？

另外一方面，回归到ICL与SFT两种本质推理范式上(可参考之前笔记回顾)，system2的e2e深推理模式某种程度上是实现了将思维链建立在模型内部网络前向过程中的神经元信号加权与偏置的激活传播，代替了ICL下的prompt工程，当然这种模型内部神经网络隐层的参数加权传播也许同样需要某些更深层次隐含的提示或input。

回过头来思考前面的system2的e2e深推理的意义：通过模型网络内部的参数激活，能够对思维链这种抽象的模式进行识别和增强，而不用人工去工程化地定义一些思维模式，思考范式，规划步骤，反思验证..这些理论上可通过模型参数在其中E2E激活完成的，即模型在进行E2E训练中，结合input，prompt，process，output会自动学习这些隐含的长链模式，而在某些情况下（如缺少中间过程目标而采取的某种强化学习RL思想），这些高度抽象的思维推理模式或因果决策链条中的内涵可能是当下人类无法理解、解释的、即完全的e2e数据驱动下的黑盒。当然要实现这种e2e的训练，我想未来会面对很艰难的挑战（大家可以想想rlhf的成本和难度），比如如何构造一个高效而优雅的任务训练范式，除了现有的SFT，RLHF外，是否还有其他学习范式，包括解决如何将推理模式通过学习反向传播回模型网络中的参数，学习过程是完全E2E的还是分阶段的，训练数据集与RLHF的差异有多大等等...

总结一下：

① 本质上模型在system2的推理过程中可能要面对信息熵增与熵减平衡问题，这里对应的要考虑一系列模型网络结构的设计、前向传播的激活函数（线性变换）考量、反向传播过程中的损失函数优化算法等一系列问题，而在这进行这之前，也许势必要进一步对神经网络原理以及认知推理模式进行更底层的理论探索，并依据先验来进行尝试，就像transformer的诞生亦要经历前期大胆的尝试并依据一些直觉上的先验来创新。

② system2的e2e推理的训练问题和必要性问题。即如何构造这样一个学习训练范式，这种e2e的推理是否是必要且高效的或者说对于我们这个世界来说，其是否遵循一个智能个体对这个世界中存在的多样化模式的认知行为？还是说本身这种多步骤的推理对于这个世界来说才是更适合的认知模式？

③ ICL与SFT的本质一致性问题；（这块可参考之前笔记回顾⑤）基于ICL与SFT的本质一致前提，才可能有深度推理E2E的实现可能与意义。

延展思考：

试想一下为什么后续GPT5为什么没有声音了呢？确实是GPT4已经对人类历史数据中所隐含的表象知识学习掌握的足够了吗？如果是的话，模型网络结构那个双向漏斗图是不是得调整成枣核状？（这里的双向漏斗和枣核为了形象的说明模型在前向与反向传播过程中模型神经网络各隐层所能容纳并表征的信息容量）大模型在预训练阶段实现的是对更多表象知识（浅层特征）的表达、泛化与压缩，而在RLHF层则是包含两种推理模式：①抽象归纳层，②基于①的生成式小漏斗。

重点思考结论&假说：

所以，是不是上述E2E深度推理的模型构建重点在于类RLHF上的改良，形成①+②这种E2E模型网络结构的创新改造，比如在②中通过类attention机制或某种扩散网络（如GAN网络），将①与多层预训练层进行拼接。

重要内涵补充：

上述system2的e2e深推理的真正内涵在于模型是否能一过性的端到端的生成深度推理后的过程和结果，以等效于COT或TOT的那种多步骤prompt以通过指令input方式行程的最终生成结果（答案），即万物皆可NN参数化（MLP万能逼近），比如简单的基于表象知识的参数化，抽象内涵的参数化，甚至如这里的连续深度COT+prompt参数化，不同的参数在不同NN层进行激活和传递并关联，比如在n层参数中激活了针对这一任务的某个思维链pattern，而这个思维pattern本身作为与prompt的联合表征又会前向激活下一层更深层的神经元...以此类推..

。

「本篇配图」

如果如一年前所猜想的「system2的e2e深度推理的」在模型结构创新设计、训练任务构造、训练数据采样、反向传播算法优化等一系列问题能够理想化的得以解决，且上述这些问题能够突破背后的理论并得到验证，我想这将迎来人工智能领域的又一次暴力出奇迹的时刻（如前几次的ImageNet、AlphaGO、chatGPT等所体现的暴力美学）。

因此对于美食的暴力美学，我想无非就是烹饪手法上所呈现出的暴（爆）力（炒）了，那么，与本篇相关对应的配图就选择一个爆炒下出滋味的一款佳肴吧～也是自己经常点单的一款，而且最为可贵的是从烹饪手法和食材的选择来说看似也是简单粗暴端到端的哦！

「融合RL与LLM思想，探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想，探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想，探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想，探寻世界模型以迈向AGI「下篇」

融合RL与LLM思想，探寻世界模型以迈向AGI「总结」

合集PDF版本v6.2已更新，大家可访问百度网盘地址自行下载：

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载：

吕小明么

关注

21
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
一年前 LLM & AGI 碎片化思考与回顾系列④ · System2慢思考下的暴力美学

最近结合本职工作在尝试思考大模型在医疗场景的大规模alignment方面时，以及医疗领域的post-training的传统知识增强模式，直觉上似乎洞察到了一些不同以往的精细化知识增强的简单粗暴式知识增强范式的转变...这两种范式在转变过程中似乎在训练任务的构造，知识或模式的范围，目标反馈的形式上看似表面上有着很大不同，但其本质上也许是等同的。站在今天的视角来看，感觉一年前关于system2·慢思考的探索与思考历程进入了深海区的探索历程中，在这一历程中，每天都会有一些新的“观点”与“尝试”。
复制链接

扫一扫