Q-star计划的更多细节

本文探讨了Q-star计划,重点在于其如何使LLM(大型语言模型)具备更强的决策能力和可能引发的意识问题。Q-star涉及到Policy LLM、Value LLM、图搜索和真理信号确认机制,其中Policy LLM和Value LLM能够互相进化并影响知识库。杨丽坤认为这只是强化学习策略的变化,而马斯克提出了Q函数公式。文章指出,ORM和PRM是奖励模型的不同形式,PRM提供更密集的反馈。图搜索用于保持任务目标的准确性,而真理信号和确认机制则尝试解决LLM对未知问题的处理。作者警告,随着这些技术的发展,如何确保最佳知识对人类有益成为一个重要问题。
摘要由CSDN通过智能技术生成

继续探讨点Q*相关的话题,这个应该是目前X和Reddit上比较火的话题了,其实就是关于Q*的方法是不是让LLM变得会产生意识,会产生自己的好恶和对人类的偏见,关于Q-star的一些介绍可以看我上一篇的扫盲帖

RLAIF方法与传说中的函数'Q',揭露OpenAI那不为人知的Qstar计划 (qq.com)

       我其实对这种人工智能可能毁灭人类的事情是有隐隐的担忧的。我和媳妇说,我觉得我从事的职业非常危险,可能会毁灭人类,当我媳妇了解了整件事情的前因后果的时候,她说:“你担心都有点多余了,就你的水平,OpenAI连访客卡都不会发给你,保安都不让你进门,人家开发人家的,跟你一毛钱关系都没有,你配担忧吗?”,我觉得她这话也没毛病,然后我的自责感就消失了......

       现在很多大佬也都参与到了对Q*的讨论,杨丽坤和马斯克是肯定在的

  • 16
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值