书生·浦语InternLM2大模型实战--基本认知（PPT版）

华尔街的幻觉

已于 2024-03-31 16:10:01 修改

阅读量491

点赞数 5

分类专栏：书生浦语大模型文章标签：书生浦语 InterLM2

于 2024-03-31 11:51:41 首次发布

本文链接：https://blog.csdn.net/sinat_29950703/article/details/137183351

版权

9 篇文章 1 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

书生葡语的全链条工具体系开源，包括：数据、预训练、微调、部署、评测、应用等环节
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
OpenCompass是国产大模型评测体系，已经适配超过100个评测集。采用循环评测策略提高性能。国内模型在中文场景下具有优势，开源社区模型表现优异，指导未来开源模型选型。

在OpenCompass年度榜单中反映了四个问题

整体能力仍有较大提升空间：在百分制的客观评测基准中，GPT-4-Turbo也仅仅达到了61.8分的及格水平
“理科”能力和模型尺寸关联度高：在语言和知识这类“文科”维度，中轻量级模型和重量级/闭源商业模型差距较小，但在数学，推理，代码等维度上，性能和尺寸呈现较强相关性
复杂推理仍是短板：国内多个模型综合能力和GPT-4-Turbo在接近，但在复杂推理上仍然存在较大差距，并且和模型尺寸存在较强相关性
模型主客观性能需综合参考：大量开源模型和API模型的客观性能和主观性能存在较大的偏差，社区不仅仅需要夯实客观能力基础，更需要在偏好对齐和对话体验上下功夫

在OpenCompass年度榜单中反映了三个信息

闭源大模型接近GPT-4水平：国内经期发布的部分大模型表现优异，多个维度上缩小了与GPT-4-Turbo的差距
国内模型在中文场景具有性能优势：在中文语言理解，中文知识和中文创作上，国内商业模型相比GPT-4-Turbo具有极强的竞争力，甚至部分模型实现了单个维度上GPT-4-Turbo的超越
开源社区未来可期：Yi-34B-Chat，InternLM2-Chat-20B以中轻量级的尺寸，展示出优秀的综合性对话体验，并接近商业闭源模型的性能