初探systemⅡ·慢思考 第②弹

本篇笔记记录于 May 31th, 2023

继续基于昨天oai联合创始人Andrej在微软大会上的报告后关于大语言模型在pre-training,SFT,RLHF上的补充思考:

灵感 Ⅰ. 当前无论systemⅠ还是未来需持续探索的systemⅡ下关于进行SFT或泛RLA(any)F对齐后的模型在位于多个空间之间建立推理与生成多样化映射的思考:想象一下,也许人类在感知世界、理解世界再到行动决策的过程就像是一个大的截断性漏斗形状「注:这里回到当下与李飞飞在“学术休假”期间于近期在TED分享的创业方向“空间智能”的洞察和观点似乎有着一致的看法,附上之前自己胡乱涂写的一张草图」,上面提到的行动决策中间过程在经过SFT或类RLAF后,看起来像是某种基于人类对现实世界多空间认知过程的某种抽象模式压缩,当然随着不同的学习目标、RLAF策略和方法,会拟合到非常不同的抽象模式轨迹当中来,或许可以用“流形”这种几何概念来进行描述和表征穿梭于多个认知空间吧..

灵感 Ⅱ. 也许对在经过类似RLAF之前所采用的无监督预训练模型(FM)会有更多想象不到的价值,直觉上FM在对信息的组织或压缩上保持了一定的信息熵(无监督目标的多样化与碎片化),容纳并压缩了更多碎片化知识和单一短链模式。而这也许可以为下一阶段的systemⅡ推理的训练提供一些增益。而这一过程就像上述提及的感知+理解世界这一阶段过程 - 对于认知过程而非物理过程来说,在最模型输入侧其熵值最大,中间层经历了一些熵减,会损失一部分熵,但这种损失也是一种智能的模式泛化过程,同时又与整体认知空间映射与平衡相关。

这里举一个栗子:研究表明婴幼儿0-3岁其大脑发育速度远超其它年龄阶段的成人或孩童,且在这个阶段其大脑神经元的数量以及连接神经元的轴突和树突密度最大,这个过程就像模型预训练阶段,神经元所建立的链接方式表现压缩容纳了更多上述所说的碎片化知识和短链模式,也许对于婴儿来说是为了建立更多发育潜能,对于预训练阶段LLM来说亦是为了压缩进更多那种碎片化知识和单一模式,为后续更高级认知能力的进化、学习、训练(SFT/RLAF)提供经验知识与模式匹配的基础与可能。

可以说:上述FM所带来的碎片化短链知识模式针对systemⅡ复杂推理过程中信息流形的重组即对空间探索导致的信息熵的进一步扩散增加有着一定的泛化增益。

8b0d35d943d542fb9eb5ad4c8cccfa47.jpg

 

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值