Q*s‘ AGI

最近这段时间,不论是产业界还是学术界,均发表了不少围绕「Q*」的探索和实验,同时随着OpenAI的「草莓QQ糖·(皮一下)」计划的曝光与训练的进行,似乎又为当前围绕Q*、AGI、AI4S等领域带来了不少业界争鸣和讨论,而且周围更多的朋友、同事甚至是跨领域人士(比如我所投身的生物医疗健康领域)也不像一年前大家都像在迷雾中摸索那样,而变得更加理性和system2了呢~。

f67f242a44bd47458bb42ce2aed9d8de.jpg

020ab8e55bf34bd48610a9c3847d21ee.jpg 

0335a11c9e9d4289a94e4ec93c59abf0.jpg 

 

结合近期几篇围绕Q*发表的内容,通过与身边和远方并未谋面伙伴的持续交流探索,自己也有一些更深入的思考和未来待解决的疑惑,比如上篇笔记所提及的关于:

① Q*如何在LLM tokenize下平衡探索与利用的问题 即EE dilemma问题及相关MCTS或A*上对于UCB或UCT上的进一步创新;

② 对于system2复杂推理,上述各种Q*方法所构建Reward的监督指引的机制是否对于LLM这种tokenize流形分布期望是有效且完备呢?

③ 以及也许是解决上述②后在终极形态下实现LLM自隐式学习和自探索生成框架能够最终得以平滑而自然的实现。

④ 当然实现③绝不仅限于此,我想还应包括更进一步的RL下针对开放世界self-play机制的进一步漫长探寻,而不仅仅是现在更多的基于简单粗暴的“超级llm teacher对students的alignment”,感觉应该存在着更加优美而平滑的方法或机制..

⑤..

希望能与希望涉足这一领域的小伙伴进一步探索合作:)

感慨的是:当前的情况发展与自己在今年年初所写的一篇长文进行了某种程度的merge,感兴趣的大伙可以翻看阅读我的历史专栏或置顶🔝文章/笔记,或baidu一下自寻出处:)

文章标题:「融合RL与LLM思想,探寻世界模型以迈向AGI」

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值