一年前 LLM & AGI 碎片化思考与回顾系列③ · 初探systemⅡ之慢思考

阅读提示:
本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。
因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!
最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。

 


「2023年05月30日 · 初探systemⅡ之慢思考」

记录正文 ↓

今天openai联合创始人Andrej在微软大会上的报告中有提到以LLMs为代表的AIGC对于人类快、慢思考两种认知推理模式的当下探索与未来展望,并基于这一问题,举了个思维链(CoT)的例子(模型通过多次外部环境交互并完成美国两个州的人口对比并最终输出结果的多步骤规划与执行模式 vs 单次推理的LLMs模型next token predict模式),这里给我的一个启示是:未来在模型的训练与推理侧是否会出现一种新的长链认知范式?如在RLHF过程中,构建自主人类或机器标注反馈机制,从而实现模型的多步骤推理并形成思维链路径决策(与之对比的是现在LLMs这种tokenize层面的自回归式的next token predict)。

当然这两者推理模式之间在认知的内涵亦非绝对的割裂。首先对于自然语言本身来说其符号化的抽象序列表征是包罗万象的,其中的多步骤推理形式化表达亦可以基于这种类似语言符号化进行精细化表征并实现推理生成,而行动规划、推理步骤、思维过程或因果链本身对于当前自然语言表达来说可能是一个更精细化的tokenize表征空间,除非所谓的这些“行动规划、推理步骤、思维过程或因果链”不完全或不适合于采用类语言序列符号化去表征,这样的话,也许多模态就要派上用场了,如基于CV像素化的表征以刻画真实细粒度物理世界规律并建立与概念空间中数据模态的映射。

沿着这个思路,也许针对模型当下在推理复杂问题时的模型可能解释性也将在这种新的范式中得以解决。

除此之外,Andrej在演讲中所说的基于思维链提示词的人类sytemⅡ思考模式也很有启发,其本质上是基于某种prompt思维工程来对任务的执行进行分步骤拆解(基于prompt的更多理解,大家请参考之前「Little Prompt,Big Power」这篇文章)。

同时,在提及ToT(思维树)的创新时,这里也激发扩散出一些思考上的延展:如对于alphago中的MCTS模块在认知过程中的重要意义,同时考虑其在LLMs训练与推理过程中通过形式的变换加以运用的可行性。

如:采用自回归语言模型训练的方式,分别在post traning、RLHF阶段采用看似简单粗暴的ToT alignment,但这里可能与chatpgt以生成内容的安全性和可用性出发为目标的align差异非常大,甚至这种差异要摒弃基于奖励函数的PPO强化学习思想而寻其它,原因可能出在内容的安全性和可用性的align在整体tokenize空间中的数据分布与ToT alignment的差异。

因此,思维树的这种扩散式的生成从直觉上也许意味着能带来更多抽象的模式识别或“跨领域空间”的模式映射。即将初始问题或者任务中所囊括的状态空间分布向另一个状态空间分布转移和匹配,如一个解代数问题运用几何方法过程进行形式化证明,如某一具体任务的执行采用多种策略进行采样尝试。

最终的,能不能找到或构造一种能让其自动持续学习训练、推理、数据反馈的长链认知推理的范式 - 就像运用systemⅠ的训练范式进行其本质的延展。这就又抛出了另一个问题:systemⅡ的alignment是否与systemⅠ在本质上是一致的呢?或者说其两者在底层逻辑的数学变换上是等价的?即是否能将systemⅡ像systemⅠ一样建立起模型训练到推理的端到端(E2E)统一范式?还是说在完整的认知过程中,systemⅡ与systemⅠ在本质上存在根本的差异?


「2023年05月31日 · 初探systemⅡ之慢思考」

继续基于昨天openai联合创始人Andrej在微软大会上的报告后关于大语言模型在pre-training,SFT,RLHF上的补充思考:

① 不论是当前systemⅠ还是未来需持续探索的systemⅡ下关于进行SFT或类RLHF对齐后的模型在生成的内容的多样化思考:想象一下,可能人类在感知世界、理解世界再到行动决策的过程就像是一个大的漏斗形状「注:这里回到当下与最近李飞飞在“学术休假”期间于近期在TED分享的创业方向“空间智能”的洞察和观点有着一致的看法,附上之前自己胡乱涂写的一张草图」,上面提到的行动决策中间过程在经过SFT或类RLHF后,看起来像是某种基于人类对现实世界认知过程的某种抽象模式的压缩,当然随着不同RLHF策略及方法,会拟合到不同的抽象模式轨迹当中来,也许可以用“流形”这种几何概念来进行描述,那么昨天所探索思考的systemⅡ中的长链推理模式我想应该也是处于这个长“流形”当中吧。

第②个思考是:在生成(决策输出侧)也许对在经过类似RLHF之前的预训练基础模型会有更多想象不到的价值,因为预训练基础模型在信息组织上体现出的信息熵大(训练目标的多样化与碎片化),容纳并压缩了更多碎片化知识和单一短链模式。也许这一过程就像上述提及的感知+理解世界这一阶段过程-对于最开始的输入熵是最大的,中间层经历了一些熵减,毕然会损失一部分熵,但这种损失也是一种智能的过程,是否也是不可避免,毕竟又跟后面的决策有关。思考:那么针对systemⅡ的这种信息的重组织是否信息熵的进一步扩散增加,是否也属于某种长思维链的智能认知过程?

这里举一个栗子:研究表明婴幼儿0-3岁其大脑发育速度远超其它年龄阶段的成人或孩童,且在这个阶段其大脑神经元的数量以及连接神经元的轴突和树突密度最大,这个过程就像模型预训练阶段,学习与进化过程中获得或压缩容纳更多的上述所说的碎片化知识和单一模式,也许对于婴儿来说是为了建立更多发育潜能,对于预训练阶段LLM来说亦是为了压缩进更多那种碎片化知识和单一模式,为后续更高级认知能力的进化、学习、训练(SFT/RLHF)提供经验知识与模式匹配的基础。而随着年龄的增长和认知的进化,SFT/RLHF的过程则需要对神经元的轴突和树突进行一定的剪枝以降低来自真实世界信息熵所体现出的复杂性。

思考③,回过头来说:基于RLHF之前的预训练基础模型在经过一定抽象和总结的多样化输出是否会为最终的chat模型(即RLHF之后的模型)提供更多prompt或COT呢?是否是一种新的模式或范式呢呢?


「奇闻异事&生活配图」

这篇动态为大伙配了去年5月份(也是一个初夏降雨降温的夜晚)的一顿老北京铜锅涮肉,当现烹炸的辣椒在经历了高油温的洗礼之后,再到与各种调料、食材配比搅拌融合、最终涮好的羊肉片搅拌入口迸发出那股子汆味儿,像不像LLM在经历从pre-training,SFT,RLHF的认知对齐过程呢?需要注意的是:其中的step by step多步骤过程是非常重要的!:)


「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」

合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载:

  • 29
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值