书生浦语大模型 第一节课笔记

陈恺老师介绍了书生·浦语大模型,强调了通用人工智能从单一任务向通用大模型的转变,InterLM2的升级包括多模态支持、8K语境、数据清理与补全技术,以及在客服、助手等领域的应用。他还详细讲解了模型的评测体系,如Compassrank和OpenCompss,以及对大模型性能的评估方法。
摘要由CSDN通过智能技术生成

视频总结

陈恺老师介绍了书生·浦语大模型的全链路开源体系,首先老师介绍了通用人工智能的发展趋势,NLP领域从特定任务模型向通用大模型的转变。老师还介绍了Internlm2的提升,包括支持多模态、8K语境,语言建模、对话交互和智能体方面有提升。

课堂笔记

  • 通用人工智能的发展方向:从单一任务模型转向通用大模型,解决多种任务和模态。

  • Interlm2介绍:分为7/20两个版本。采用了新的数据清理过滤技术(基于文本质量和信息密度评估语料),高质量语料的数据富集(基于提取的很高质量特征去进一步采集数据)和有针对的数据补全(加强数理逻辑类知识)提升了模型性能,用更少数据也能达到上一代效果,整体性能增强,作为基座模型,性能良好,20版本能和3.5性能相近。 现在模型具有人文关怀的价值观,有想象力的创作(如何定义想象力)的基础能力,能实现理解输入、对话与创作、接近大学生的数学能力。尤其是能够采用代码解释器,无需调用工具,也能提高数学能力。配合代码解释器,能在math上实现51分结果。数据分析能解析excel,主要是借助pandas和plt库。
    InterLM2可以胜任客服,助手等任务
    在这里插入图片描述

在这里插入图片描述

  • 完善了开源工具体系:为了让大小开发者能根据自身情况和业务,更容易预训练微调部署评测等,InterLM实现了预训练、微调、部署和评测等全流程,最高可扩展到千卡训练,性能优化的不错。 数据方面开源了书生万卷两个数据集。预训练是浦语预训练链条。在我们小开发者更关心的微调方面,目前支持增量续训,加入某个垂类领域知识,能保持很好的原生通用能力,这点非常赞。有监督微调(lora)能降低微调成本。开放了Xtuner框架,有多种微调算法,8GB的20系显卡即可微调,也适配HuggingFace。部署方面,提供了在GPU的全流程解决方案,轻量化接口非常好,LMDeploy性能领先,每秒可生成2k+的tokens,支持模型轻量化、量化和推理服务,与评测工具无缝对接。

在这里插入图片描述

  • 大模型性能评测:这点老师花了很大篇幅讲,这点也是群众最关心的。首先是提供了排行榜Compassrank,大家可查询最厉害的模型排行榜。CompassKit里的OpenCompss用来评测,主要亮点是数据污染检查(避免一些用开源数据集去训练,然后拿高分的作弊行为)、长文本能力评测(捞针测试,模型的长文本到底怎么样,不仅仅是输进去了,还要考察是否学到了重要信息点)。中英双语评测,更好的比模型之间差距,因为一些国外模型不支持中文,比如mistral,能帮我们更科学的评测大模型整体能力。同时也依靠社区的能力去评测,可以提交数据集。然后进行评测。
    在这里插入图片描述

从评测结果来看,和chatbot arena相近,但是还是没看到最近很火的kimi,期待后续能加入。也希望compasshub能提供一些免费接口,让用户试用,从实际使用结果进行双盲模型评测。
在这里插入图片描述

hub也有一些垂类模型榜单,比如医学和法律,从评价维度来看,包含理解,生成,问答,推理和伦理,比较全面。有些疑惑回答应该是包含了理解,生成,推理和伦理,不清楚如何具体打分的。

  • 智能体:提供了前沿算法接口,可以集成视觉模型,包括sam。
  • 感想:想动手体会一下
  • 8
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值