Kimi k1.5:多模态强化学习,推理性能与效率双丰收

e1067d14103b9573517ceb8532c58b92.png

终于Kimi又更新了!期待已久

说是已经在灰度了:39fb27b829ac1adb71d1bf44e7616ec6.png但是我的界面还是这样,再等等吧,一会试试~7abf707f2abaa3871e05d4ee78685117.png

我们先一起读读论文看看技术细节有啥变化吧。

地址:https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

大语言模型(LLM)的预训练方法已经证明了其在扩展计算上的有效性,但受限于可用训练数据的量。

强化学习(RL)为AI的持续改进提供了新方向,能让LLM通过奖励机制探索更多数据,但此前的研究成果并不理想。

Kimi k1.5团队另辟蹊径,提出了一个简洁有效的RL框架,不依赖复杂的蒙特卡洛树搜索、价值函数和过程奖励模型等技术。

通过长文本上下文扩展、改进的策略优化方法,Kimi k1.5在多个基准测试中达到了与OpenAI的o1相当的推理性能,bd6aa3861f988e06bbea2f3310d3a62a.png还通过“长转短”方法提升了短文本推理模型的性能,最高超出现有模型550%。6e98764fcc2dcc0d4947abe3cae35683.png

方法细节

ae07608f394634b27f8d834f4f5fc6cd.png

长上下文扩展

Kimi k1.5将强化学习的上下文窗口扩展到128k,发现随着上下文长度增加,性能持续提升。团队采用了部分轨迹回放技术,通过重用之前轨迹的大块内容来生成新轨迹,避免从头开始生成新轨迹的成本,有效提高了训练效率。这种长上下文扩展让模型能够更好地规划、反思和纠正推理过程,就像给模型装上了“千里眼”,让它能看到更远的“未来”,从而做出更合理的决策。

改进的策略优化

团队提出了一个基于在线镜像下降的变体算法,用于鲁棒的策略优化。这个算法通过有效的采样策略、长度惩罚和数据配方优化来进一步提升性能。简单来说,就是让模型在训练过程中更加“聪明”,知道哪些地方需要重点学习,哪些地方可以稍微“偷懒”,同时避免生成过于冗长的推理过程,提高了模型的效率和准确性。

多模态训练

Kimi k1.5是一个多模态模型,能够同时处理文本和视觉数据。这种多模态训练方式让模型在处理问题时可以综合考虑多种信息,比如在解答一道包含图表的数学题时,模型不仅能理解文字描述,还能“看懂”图表,从而更准确地给出答案。044c040a055d91516e2f0a31078ee0de.png

实验结果

长文本推理性能

Kimi k1.5的长文本推理版本在多个基准测试中表现出色,例如在AIME 2024中达到了77.5的通过率,在MATH 500中达到了96.2的准确率,在Codeforces中达到了94百分位,与OpenAI的o1相当,甚至在某些任务上超过了现有的其他模型。这说明Kimi k1.5在处理复杂推理任务时已经达到了顶尖水平。be52bfb800d3848c565d2bcd6fadac7d.png

短文本推理性能

09d2a73bc609f52d0e2e219a77ef5ca1.png通过“长转短”方法,Kimi k1.5的短文本推理版本也取得了显著的性能提升。例如在AIME 2024中达到了60.8的通过率,在MATH 500中达到了94.6的准确率,在LiveCodeBench中达到了47.3的通过率,大幅领先于GPT-4o和Claude Sonnet 3.5等现有短文本推理模型。这表明Kimi k1.5不仅在长文本推理上表现出色,还能通过技术手段将这种优势转化为短文本推理能力,让模型在不同场景下都能发挥强大的推理能力。fcf44e111d9d91e6df37127f1b3f0220.png

结论

Kimi k1.5通过长上下文扩展和改进的策略优化方法,在强化学习框架下实现了高效的训练,并且在多模态推理任务中取得了与OpenAI的o1相当甚至更优的性能。未来,团队将继续探索如何进一步提高长上下文强化学习训练的效率和可扩展性,同时研究如何更好地将长文本推理能力转化为短文本推理能力,让模型在更多场景下都能发挥出强大的性能。

一会定要试一试~ 嘿嘿~


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

ff6e0f340dca274cecf6c191bb8525df.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值