
强化学习
文章平均质量分 93
大模型之路
这个作者很懒,什么都没留下…
展开
-
强化学习如何让LLMs学会思考而不仅仅是预测
大语言模型(LLMs)从最初只能进行简单的文本预测,到如今逐渐展现出思考和推理的能力,LLMs 的每一步进化都令人惊叹。而在这一蜕变过程中,强化学习()扮演着举足轻重的角色,它就像一把神奇的钥匙,打开了 LLMs 从单纯预测迈向深度思考的大门。原创 2025-03-06 08:15:00 · 835 阅读 · 0 评论 -
kimi1.5技术报告解读,你想了解的都在这里
Kimi K1.5 作为一款前沿的多模态大语言模型,凭借其独特的强化学习训练方式和创新技术,展现出卓越的性能,在多个领域取得了显著成果,为人工智能的发展开辟了新路径。今天我们一起了解一下kimi1.5。原创 2025-02-10 08:15:00 · 1308 阅读 · 0 评论 -
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
强化学习已成为训练大型语言模型不可或缺的一部分。从TRPO到PPO,再到最新的GRPO,这些算法不断推动着LLMs的创新和发展。通过平衡稳定性、效率和人类对齐,RL算法使LLMs能够更好地理解和生成自然语言,从而在各个领域发挥更大的作用。原创 2025-02-08 08:15:00 · 1392 阅读 · 0 评论 -
OpenAI o1背后的技术:强化学习
强化学习作为人工智能领域中一种强大的学习范式,通过Agent与环境的交互和试错学习,为解决复杂决策问题提供了有效的方法。原创 2024-11-29 17:21:33 · 1080 阅读 · 0 评论