有关「泛化·Generalization」

节选自我于24年初所写的「融合RL与LLM思想,探寻世界模型以迈向AGI · 中篇 · LLM迈向AGI的RL之旅」散文式风格文章,读起来不会过于晦涩,感兴趣的小伙伴儿可以访问我的主页置顶或专栏收录,并形成了电子书供大家下载(目前下载量已破万),因为属于中长篇技术散文,后续将持续摘录。

3c0b7943bdee4988afea8813a4f37e13.jpg

节选部分↓

RL的这种self-play对LLMs所带来的价值意义与价值边界问题的思考:

我们知道对于围棋和其它对弈类游戏的self-play(SP)内部中均有自己系统内的完备规则以及策略集合,而这些SP内与外部用于pretrain LLMs的大量历史数据(文本类数据)来说,直觉上两者间所蕴含的「泛化集合」应该有着很大的不同。因此,如果可以合理的将SP过程所蕴含的泛化能力迁移到LLM中,将有效增强其领域泛化边界。但我们判断在一个大的领域范畴中,比如数学形式化证明体系,其所包含的泛化能力范围及边界到底能有多大上面可能会有不小的挑战,因为泛化能力当前很难采用某种形式化的手段进行洞察并有效表示,因此我们可能需要通过其它如整体的策略集合大小、状态集合大小来进行某种估算。

另外,多个不同的SP模拟动作空间中其各自的「泛化集合」直觉上应该也有很大不同,因此在采用SP RL进行超级alignment过程中为了促进模型通用泛化能力的提升,应该进行更多SP场景模拟构建并保障多样化的数据alignment。

这里提出一个新概念和新假设,①新概念:“泛化集合”,代表某一个领域的泛化能力的集合,泛化代表了某种现象到概念的抽象,因此我们通常在掌握或能够利用泛化能力的意义在于,我们可以举一反三,即并能够针对看似不同类型的问题,按照回归第一性原理的思路从底层逻辑上去归纳总结;②新假设:我们假设这个完整世界内存在很多泛化性,而不同领域内的泛化性有相关性也有领域内的独立性。

不过也不排除领域内世界的泛化能力与领域外世界的诸多场景是重合的甚至是有着某种泛化依赖的,如比较特殊的数学,我们知道数学的形式化证明体系,可以说对于物理、化学、生物等多学科甚至是多领域交叉学科背后的理论都有数学方法作为基础支撑,同时其各自领域内的复杂计算和推理也都离不开数学的形式化证明体系。因此,直觉上,数学应该是未来LLMs需重点关注学习的领域。这一点其实与人类也很相似 “一般数学好的同学,理科应该都不太差”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值