书生浦语大模型第一节课笔记

小熊猫程序猿

已于 2024-04-04 22:37:56 修改

阅读量281

点赞数 8

文章标签： nlp

于 2024-03-31 19:59:35 首次发布

本文链接：https://blog.csdn.net/weixin_42291933/article/details/137207710

版权

陈恺老师介绍了书生·浦语大模型，强调了通用人工智能从单一任务向通用大模型的转变，InterLM2的升级包括多模态支持、8K语境、数据清理与补全技术，以及在客服、助手等领域的应用。他还详细讲解了模型的评测体系，如Compassrank和OpenCompss，以及对大模型性能的评估方法。

摘要由CSDN通过智能技术生成

陈恺老师介绍了书生·浦语大模型的全链路开源体系，首先老师介绍了通用人工智能的发展趋势，NLP领域从特定任务模型向通用大模型的转变。老师还介绍了Internlm2的提升，包括支持多模态、8K语境，语言建模、对话交互和智能体方面有提升。

通用人工智能的发展方向：从单一任务模型转向通用大模型，解决多种任务和模态。
Interlm2介绍：分为7/20两个版本。采用了新的数据清理过滤技术（基于文本质量和信息密度评估语料），高质量语料的数据富集（基于提取的很高质量特征去进一步采集数据）和有针对的数据补全（加强数理逻辑类知识）提升了模型性能，用更少数据也能达到上一代效果，整体性能增强，作为基座模型，性能良好，20版本能和3.5性能相近。现在模型具有人文关怀的价值观，有想象力的创作（如何定义想象力）的基础能力，能实现理解输入、对话与创作、接近大学生的数学能力。尤其是能够采用代码解释器，无需调用工具，也能提高数学能力。配合代码解释器，能在math上实现51分结果。数据分析能解析excel，主要是借助pandas和plt库。
InterLM2可以胜任客服，助手等任务

在这里插入图片描述

完善了开源工具体系：为了让大小开发者能根据自身情况和业务，更容易预训练微调部署评测等，InterLM实现了预训练、微调、部署和评测等全流程，最高可扩展到千卡训练，性能优化的不错。数据方面开源了书生万卷两个数据集。预训练是浦语预训练链条。在我们小开发者更关心的微调方面，目前支持增量续训，加入某个垂类领域知识，能保持很好的原生通用能力，这点非常赞。有监督微调（lora）能降低微调成本。开放了Xtuner框架，有多种微调算法，8GB的20系显卡即可微调，也适配HuggingFace。部署方面，提供了在GPU的全流程解决方案，轻量化接口非常好，LMDeploy性能领先，每秒可生成2k+的tokens，支持模型轻量化、量化和推理服务，与评测工具无缝对接。

在这里插入图片描述

大模型性能评测：这点老师花了很大篇幅讲，这点也是群众最关心的。首先是提供了排行榜Compassrank，大家可查询最厉害的模型排行榜。CompassKit里的OpenCompss用来评测，主要亮点是数据污染检查（避免一些用开源数据集去训练，然后拿高分的作弊行为）、长文本能力评测（捞针测试，模型的长文本到底怎么样，不仅仅是输进去了，还要考察是否学到了重要信息点）。中英双语评测，更好的比模型之间差距，因为一些国外模型不支持中文，比如mistral,能帮我们更科学的评测大模型整体能力。同时也依靠社区的能力去评测，可以提交数据集。然后进行评测。

从评测结果来看，和chatbot arena相近，但是还是没看到最近很火的kimi，期待后续能加入。也希望compasshub能提供一些免费接口，让用户试用，从实际使用结果进行双盲模型评测。
在这里插入图片描述

hub也有一些垂类模型榜单，比如医学和法律，从评价维度来看，包含理解，生成，问答，推理和伦理，比较全面。有些疑惑回答应该是包含了理解，生成，推理和伦理，不清楚如何具体打分的。

关注