学习笔记:书生·浦语大模型全链路开源体系

大模型的现状

 书生浦语大模型的体系

有7B和20B两个规格。

面向不同的使用需求 ,每个规格包含三个模型版本,为轻量级的研究和应用提供了一个轻便但性能不俗的模型。模型的综合性能更为强劲,可有效支持更加复杂的实用场景
InternLM2-Base:
高质量和具有很强可塑性的模型基座是模型进行深度领域适配的高质量起点。
InternLM2:
在 Base 基础上,在多个能力方向进行了强化 ,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座。
InternLM2-Chat:
在 Base 基础上,经过 SFT 和 RLHF,面向对话交互进行了优化,具有很好的指令避循、共情聊天和调用工具等的能力。

从模型到应用的典型流程

 

 可应用书生浦语的全链条开源开放体系:

从OpenCompass的客观评测洞见未来 

1,整体能力仍有较大提升空间:采用了更加准确的循环评测策略,我们实现了对模型真实能力分析。在百分制的客观评测基准中,GPT-4-Turbo也仅仅达到了61.8分的及格水平。

2,“理科”能力和模型尺寸关联性高:在语言和知识这类“文科”维度,中轻量级模型和重量级/闭源商业模型差距较小,但数学、推理、代码等维度上,性能和尺寸呈现较强相关性。

3,复杂推理仍是短板:国内多个模型综合能力和GPT-4-Turbo在接近,但在复杂推理上仍然存在较大差距,并且和模型尺寸存在较强相关性。

4,模型主客观性能需综合参考:大量开源模型和API模型的客观性能和主观性能存在较大的偏差,社区仅仅需要夯实客观能力基础,更需要在偏好对齐和对话体验上下功夫。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值