Q-star计划的更多细节

最新推荐文章于 2024-09-10 16:00:52 发布

周博洋K

最新推荐文章于 2024-09-10 16:00:52 发布

阅读量899

点赞数 16

文章标签：深度学习人工智能 AIGC agi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/135164520

版权

本文探讨了Q-star计划，重点在于其如何使LLM（大型语言模型）具备更强的决策能力和可能引发的意识问题。Q-star涉及到Policy LLM、Value LLM、图搜索和真理信号确认机制，其中Policy LLM和Value LLM能够互相进化并影响知识库。杨丽坤认为这只是强化学习策略的变化，而马斯克提出了Q函数公式。文章指出，ORM和PRM是奖励模型的不同形式，PRM提供更密集的反馈。图搜索用于保持任务目标的准确性，而真理信号和确认机制则尝试解决LLM对未知问题的处理。作者警告，随着这些技术的发展，如何确保最佳知识对人类有益成为一个重要问题。

摘要由CSDN通过智能技术生成

继续探讨点Q*相关的话题，这个应该是目前X和Reddit上比较火的话题了，其实就是关于Q*的方法是不是让LLM变得会产生意识，会产生自己的好恶和对人类的偏见,关于Q-star的一些介绍可以看我上一篇的扫盲帖

RLAIF方法与传说中的函数'Q'，揭露OpenAI那不为人知的Qstar计划 (qq.com)

我其实对这种人工智能可能毁灭人类的事情是有隐隐的担忧的。我和媳妇说，我觉得我从事的职业非常危险，可能会毁灭人类，当我媳妇了解了整件事情的前因后果的时候，她说：“你担心都有点多余了，就你的水平，OpenAI连访客卡都不会发给你，保安都不让你进门，人家开发人家的，跟你一毛钱关系都没有，你配担忧吗？”，我觉得她这话也没毛病，然后我的自责感就消失了......

现在很多大佬也都参与到了对Q*的讨论，杨丽坤和马斯克是肯定在的

最低0.47元/天解锁文章

关注

16
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
Q-star计划的更多细节

我和媳妇说，我觉得我从事的职业非常危险，可能会毁灭人类，当我媳妇了解了整件事情的前因后果的时候，她说：“你担心都有点多余了，就你的水平，OpenAI连访客卡都不会发给你，保安都不让你进门，人家开发人家的，跟你一毛钱关系都没有，你配担忧吗？如果一个标准的数学题，OpenAI在训练的时候它见过，那么它就照葫芦画瓢，它就会做，但是实际上它不是会做，它只是比较余弦距离（或者OpenAI人家有自己的更好的距离算法）而已，生成出来的答案，要是没有训练过的数学题，那它就是乱做。我用简单的语言解释，并给大家串讲一下。
复制链接

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

99: 原创

3万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

3051: 积分

1510: 粉丝

2059: 获赞

15: 评论

1702: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！
导致OpenAI内乱的罪魁祸首，背后的技术是什么？
CSDN-Ada助手: 恭喜您撰写了第16篇博客，标题引人入胜，内容也很有深度。对于OpenAI内乱的探讨让人颇为关注，同时也期待能够了解更多背后的技术细节。或许接下来可以深入分析一下可能的解决方案，或者对未来发展方向进行展望，这样能够更全面地呈现给读者。希望您能继续保持创作，期待您更多的精彩内容！

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。