一年前 LLM & AGI 碎片化思考与回顾系列④ · 从System2→Post-training的疑虑和思考

阅读提示:

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。
因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!
最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。

这张来自某艺术空间展馆的配图感觉很像system2所容纳的那些未知,有咩有


「2023年06月01日 ·从 System2→Post-training」

记录正文 ↓

今天回顾与反思的内容是一年前的今天体会到LLM对未来AGI的潜力与疑惑,结合人类思考模式与GPT再到System2→post-training的思考:

以COT或TOT为驱动的类Agent的system2长推理链思考模式是否能自然而平滑地融入到AIGC内嵌式推理生成?方法是怎样的?甚至是否会存在一种不同以往的模型认知推理模式或训练范式?就像人在某些深入理性思考过程也体现出经过内部神经元信号快速激活传递而产生的涌现或顿悟,而不是现在这种类GPT的交互式prompt工程或ICL。

关键点在于:“如何自然平滑融入”,需要从训练和推理两个阶段进行思考。就像在模型推理生成决策与行动内容上等效于实现类思维链提示那样的额外prompt工程效果,或者实现Toolformer那样的plug-in调用与执行。

例如:如将复杂而抽象的统计学方法或数学思维快速迁移到生科生信、临床科研场景中来(来自arxiv_cancerGPT启示)。

思路探索:是否可采用self play自博弈模式或简单的借鉴于基于PPO的RLHF思想( or DPO)进行长推理链的E2E训练?

顺着上面的思考路径,昨天读到了一篇基于LLM生成事件schema模式的文献以及一篇论证RLHF质量与数量及模拟人类构建RLHF机制的文献,产生了延展思考:

对于post-training下的SFT也好还是采用PPO-RLHF或DPO-RL也好(这是可能未来两种RL优化模式),基于LLM在pre-training阶段下隐含了大量复杂而抽象的知识的前提下,在System2→post-training两者间未来如何趋向统一与相互之间的平衡(这么说的原因之一是因为要考虑训练过程的整体数据分布),即是否存在一种趋势或模式:使得pre-training阶段尽可能广的学习到繁杂表象领域的泛化性知识(或者叫模式),post-training更多承担领域抽象知识或模式,这里有一个前提或猜想是:在我们的世界中存在着的复杂知识结构,这种结构蕴含着广度与深度、表象与抽象的复杂结构。又或是两种训练方法对知识的学习和模式的认知是与上述表述相反的?能够直觉体会到的是:预训练阶段可能承担学习更多繁杂且扁平化的多领域知识关联,直觉上的原因是:它的模型泛化与迁移能力所体现出的涌现效果以及自回归的这种next token predict的模式。


「2023年06月02日 · system2慢思考的一些疑虑」

继续针对一年前的今天,关于“system2·慢思考”存在于心中的一些疑惑向大家分享并抛出:

① 今天早上又想到一个点:对于某种广义上的认知行为来说,是不是只有像丹尼尔·卡尼曼(Daniel Kahneman)老先生所归纳的那样复杂而完全呢?看似完全将快与慢分别看待?或者在两种思考模式间,是否还存在着更多的内涵或疑问:

  • 只存在system1·快思考&system2·慢思考这两种认知模式吗?有没有超脱于现有人类认知思维模式之外的system3·*思考?
  • 快与慢分别对应所指的认知过程内涵与意义是什么?
  • 如果存在既不属于system1与system2的其它的认知思维模式,那应该是一种什么形态或过程?如何其判别这种差异呢?
  • 如果所谓的其它不同于system1与system2的认知思维模式与两者并无二致,即属于system1与system2的某个子集,那么背后的逻辑限定是什么?我想这背后一定会有更基础、更透彻的对于认知本身的定义与理解,它可能与我们存在的这个真实物理世界的自然规律、抽象理念世界中的类属加种差的概念体系有着很大的关联。

② 来自于如何更彻底的看待CoT或ToT对于整个认知过程中的定位和作用的切入点思考:从表象直觉上,其看似是将LLM中所蕴含的知识或模式激活,那就意味着 如何把LLM中所蕴含压缩的知识和模式【定向或精准】激活出来?或者说是组织出来?是否存在某种范式基础或甚至是新的信息学理论?目前看简单的操作模式是通过prompt这一种手段,难道只有prompt这一种手段吗?

对于经过了pre training之后的foundation model其中所压缩蕴含的知识和模式是都否是仅仅是碎片化的隐匿于模型网络神经元的参数之中,或也可以看似是一种蕴含着大量知识的编码后状态,解码的钥匙则是通过promp去解码重构其中所蕴含并被压缩在LLM中的碎片化知识与模式。

这里应该会充斥着多样且复杂的知识组织轨迹或组织模式空间,取决于模型网络中神经元信号激活传导路径(前向传播计算)。当然这里的前提是,经过了pre-training和post-training之后的LLM中隐含在内部的庞大参数已经能够借助并驱动蕴含于其中的数学变换和计算算子去逼近拟合这些复杂的知识与模式的真实组织。

③ 想到以一篇论文摘要作为最终结果标记,论文原文中间的实验与论述作为中间结果标记,需求与问题作为输入,去构建的一种过程化RLHF是否是一种可行的推理思维链信息熵扩散模式?其中训练过程中的目标如何优雅的进行传递与优化?推理时如何满足过程与结果的平滑、自然且完备?LLM自回归的方式是否是唯一或者是适合的?有没有其它更适合生成复杂推理模式的概率预测框架?

④ 能否尝试构建一种长过程链的训练推理一体化范式:模型会自己遵循某种方式自主的建立长链思维训练与推理范式。对应的深度学习神经网络的标记化监督学习一类认知推理模式(对应system1),连续的递归prompt是另一类认知推理模式(对应sysystem2),两种方式是否可优雅的融合?还有没有其他的推理模式?

⑤ 或者说更进一步的,现在的pre-taining+SFT+RLHF是否是一个面向CoT或ToT 端到端的合理范式吗?应该不是,他仍只更适合system1,system2应该有别的E2E范式。

直觉上,看起来taining+SFT是简单粗暴的嵌入(学习)非常广泛具象抽象支持,而RLHF是更加深邃,长程的信息熵增的扩散生成;亦或是,CoT或ToT本身就不存在E2E的这种范式?

有几种可能的上述解决模式:

  • (1)基于模型网络结构的改造;
  • (2)基于过程监督的训练任务;
  • (3)不同于当前GPT看起来以pre-training为主导基础,再以post-training下的sft或rlhf为辅的训练模式(当然,这里需要说明的是sft和rlhf并不是不重要,相反chatGPT之所以能否产生如此惊艳的能力,sft和rlhf在其中起到了决定性作用且这部分是所耗费的成本和实现的难度与挑战是最大的。这里是想从对pre-training,sft,rlhf这三者在LLM全景训练过程中对全量数据进行信息压缩与模式学习所承载的计算量角度来去比较),而是采用以如强化学习RL为主导的方式;

⑥ 在模型结构创新层面,也许解决上述E2E CoT或ToT的技术路径可能需要采用某种技术创新手段,做出模型在transform网络结构推理层面的改良或替代,以模型参数的足够容量和灵活性对标取代采用prompt提示输入的效果,当然前面我们提到这种模型中参数的改变变量与prompt输入的变化变量在数学变换本质上可能是一致的,在数值计算逻辑上存在较大的差异。之所以提出⑥这一种可能,还是因为基于NLP这种通用,普遍性符号化表达的多样性与开放性。


「奇闻异事&生活配图」

从今天的视角来看,感觉一年前关于system2·慢思考的探索与思考初探到了深水区,而且看似这种直观简单粗暴的自回归next token predict模式下的pre-training在更加深邃而长过程推理领域中scaling law的潜在瓶颈。

结合近几日在各种重口味的狂轰下(历经了山东、东北重口烧烤,各种预制工业辣,西北的滩羊与各种碳水)今天换换清淡一点的口味:余姚的【黄鱼面】,也是为了后续系列的爆发留下更多重口味的想象空间,我想大家也是期待一次比一次强烈的重口吧。

配图是2019年深秋,一次余姚的差旅,那天记得下着小雨,酒店周围随便溜达就碰到一家面馆,落座后点了一碗热气腾腾的黄鱼面+两只闸蟹,黄鱼面刚入嘴时随略感清淡无味,但在口中经咀嚼之后并就口汤,让人意味悠长,颇有江南之细腻~强烈推荐大家去当地品尝。


「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「总结」

合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载:

  • 14
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值