书生·浦语2.5发布,支持百万长文,推理能力开源领先 | WAIC 2024

在7月4日举行的WAIC 2024科学前沿主论坛上,上海人工智能实验室(上海AI实验室)发布通专融合系列成果。

作为书生·浦语系列大语言模型的最新版本,书生·浦语2.5具备一百万词元(Token)的超长文本窗口及开源模型中领先的推理能力,并支持自主规划和在线信息整合,成为助力复杂问题高效解决的得力AI助手。

秉持“以高质量开源赋能创新”理念,书生·浦语2.5及全链条工具体系将持续开源,提供免费商用。书生·浦语系列大模型首次开源以来,已衍生出超1000个创新项目,与产学研各界共同构建更广阔的AI生态。

合成数据+模型飞轮,助推基础性能提升

随着大模型的快速发展,人类积累的数据正加速用于预训练消耗。在高质量数据不足的情况下,高效地提升模型性能,成为当前大模型研究的主要挑战之一。由上海AI实验室与商汤科技组成的联合团队,提出“合成数据+模型飞轮”双重驱动技术,为书生·浦语系列模型打造性能加速器。

针对不同的数据特点,联合团队制定了多样化数据合成方案,分别基于规则数据构造及模型数据扩充、反馈数据生成,确保合成数据的正确性与质量。

同时,在研发过程中,模型本身也被持续不断地应用于自身的进步,能够随着训练过程对发现自身问题并进行自我修复,成为“飞轮式”的滚动迭代模式。

在“双重驱动”的作用下,全新升级的书生·浦语2.5获得了增强型推理能力及1M词元的超长文本窗口,为在更复杂场景下的应用落地提供良好模型基础。

复杂推理:超越自身,更领先同量级

强大的推理能力是通向通用人工智能的重要基础,联合团队将推理能力作为模型性能提升重点,书生·浦语2.5的推理能力再次取得进步。

基于OpenCompass司南评测体系,联合团队对书生·浦语2.5在多个推理能力评测集上进行了测试。相较自身的上一代,书生·浦语2.5的推理能力实现了大幅提升,尤其在数学能力方面,性能提升高达一倍。

与国内外最新的主流开源模型相比,书生·浦语2.5在大部分推理评测集上综合领先于Llama3和Gemma2等同量级模型。

针对实际落地应用场景,书生·浦语2.5的多步骤复杂推理能力也得到了精进。在一项涉及2020年东京奥运会奖牌榜数据的复杂多步推理问题中,书生·浦语2.5准确给出了答案,并给出了解答原因及步骤。

超长文本窗口:百万长文输入,支持个性化部署

在长文档理解、复杂的智能体交互等应用场景中,对模型支持的文本窗口长度提出更高要求。书生·浦语2.5的文本窗口词元由上一代200K提升至1M(约120万汉字),进一步释放了模型在超长文本应用上的潜力。在模型的预训练中,为了避免语料类型过于单一而导致的域偏移,研究人员通过合成数据进行了补充,使得模型在扩展上下文的同时可以尽量保留其语言处理能力。

采用“大海捞针”评估方式的结果显示,书生·浦语2.5在1M词元长度超长文本中,依然可以准确找到信息。研究人员同时使用长文理解能力评测集LongBench对同量级主流开源模型进行评估,书生·浦语2.5同样取得了优异性能表现。

研究人员向书生·浦语2.5输入约35万字版本的《新唐书节选》,通篇皆为文言文版本,并要求描述“唐代文学的三次风格变化”的具体问题。书生·浦语2.5均做出了准确回答,体现出强大长文本处理能力的同时,也展现了深厚的国学基础。

与此同时,依托书生·浦语2.5的长文本能力,联合团队开发了文档对话应用,并全链路开源,支持用户个性化本地部署。

网络接入+多智能体协作,助力高效信息处理

针对需要大规模复杂信息搜索和整合的问题场景,书生·浦语2.5研究团队提出了“规划器”模式,调动内部多智能体协作,在模仿“人的解决思路”前提下,更高效准确进行全网信息检索及整合。

联合团队创造性地提出了MindSearch多智能体框架,模拟人的思维过程,引入了任务规划、任务拆解、大规模网页搜索、多源信息归纳总结等步骤。如图多人同时为查找统一信息而合作。规划器专注于任务的规划、拆解和信息归纳,采用图结构编程的方式进行规划,并根据任务状态进行动态拓展;搜索器负责发散式搜索并总结网络搜索结果,使得整个框架能够基于上百个网页的信息进行筛选和浏览和整合。

向书生·浦语2.5提问嫦娥6号探月相关问题,模型能够分析用户需求,并联网搜索嫦娥6号的技术难点、再针对每一个技术难点搜索对应的解决方案,再从任务目标、技术手段、科学成果、国际合作4个方面对比阿波罗11号登月计划,最后总结我国探月成功的贡献。体现了面对复杂问题及海量网络信息检索的高效整合能力。

拥抱更广阔的开源生态

以持续的高质量开源赋能创新,书生·浦语系列模型延续开源和免费商用授权,面向实际应用场景提供更好的模型和工具链,与各界携手,共同拥抱更广阔的开源生态,

2023年WAIC期间,书生·浦语及面向大模型研发与应用的全链条工具体系正式开源。一年来,书生·浦语系列模型陆续开源多个迭代升级版本,不断拉低大模型使用及研究门槛。伴随本次书生·浦语2.5发布,全链条工具体系面向应用环节同时迎来升级,开源了领域知识助手及数据提取工具等多项应用,并兼容了技术社区内常用的大模型工具,为用户“玩转”大模型提供便利。

据统计,书生·浦语系列模型首次开源以来,开发者社区及产学研界利用基础模型和工具体系已开发出近1000个创新项目,覆盖从垂类模型到智能体应用、从软件到硬件的多个领域。同时,基于书生·浦语2.5,上海AI实验室将持续发起公益学术培训及创新竞赛。

由上海AI实验室发起的浦源大模型挑战赛,已成功举办两季,吸引全球超过300支开发者队伍参与,由挑战赛中产生了300余个创新项目,其中,“基于浦语大模型的离线具身智能导盲犬”、新闻报道创作大模型、多模态中医问诊大模型、卖货主播大模型等项目,在学术及产业界产生了积极影响。书生大模型实战营提供“手把手”教学及免费算力支持,已吸引超过15万人次线上学习,引导越来越多兴趣人士共同加入大模型创新开发队伍,共促大模型生态繁荣。


上海人工智能实验室去年 12 月份推出了书生·浦语大模型实战营,收到社区的一致好评,半年来累计已有 15 万人次参与学习,并孵化出超 600 个生态项目。在 InternLM2.5 发布之际,我们也正式宣布书生·浦语大模型实战营正式升级为书生大模型实战营,逐步加入更多书生大模型体系课程与实战, 带你从入门到进阶,大模型时代不迷航。

第三期书生大模型实战营近日起正式开启,我们将在实战营中手把手带大家微调、部署 InternLM2.5 模型,免费算力及助教老师全程陪伴,还有权威的官方证书,快来点击文末“阅读原文”或识别下方海报二维码报名学习吧!

  • 24
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值