【课堂笔记】1_书生浦语大模型全链路开源开放体系
课程资料来源:书生·浦语大模型实战营
大模型成为了热门关键词,尤其是chatGPT发布两个月月活破亿
AI的发展路线:从专用模型(特定任务->一个模型解决一个问题)->通用大模型(一个模型应对多种任务、多种模态)
书生·浦语大模型系列:轻量级(7B)、中量级(20B)、重量级(123B)
从模型到应用:智能客服、个人助手、行业应用
模型到应用:
全链条开源开放体系:数据(书生万卷)、预训练(Intern-Train)、微调(XTuner)、部署(LMDeploy)、评测(OpenCompass)、应用(Lagent AgentLego)
数据
书生万卷1.0
总2TB,包括文本数据、图像-文本数据、视频数据
- 多模态融合
- 精细化处理
- 价值观对齐
OpenDataLab
模态30+、数据集5400+、数据大小80TB
提供多种服务和工具:灵活检索、高速下载、智能标注、高效采集
预训练
高可扩展:8卡-千卡
性能优化
兼容主流:HuggingFace等
开箱即用:支持多种规格语言模型
微调
增量续训
使用场景:让基座模型学习到一些新知识,如某个垂类领域知识
训练数据:文章、书籍、代码等
有监督微调
使用场景:让模型学会理解和遵循各种指令,或者注入少量领域知识
训练数据:高质量的对话、问答数据
XTuner
多种微调算法
适配多种开源生态
自动优化加速
适配多种硬件:NVIDIA 20以上系列
8GB显存即可微调7B模型
评测
OpenCompass
丰富模型支持:开源模型、API模型一站式评测
分布式高效评测:支持千亿参数模型在海量数据集上分布式评测
便捷的数据集接口:支持社区用户根据自身需求快速添加自定义数据集
敏捷的能力迭代:每周更新大模型能力榜单,每月提升评测工具能力
部署
大语言模型特点
内存开销巨大
- 庞大的参数量
- 采用自回归生成token,需要缓存k/v
动态Shape
- 请求数不固定
- token逐个生成,且数量不定
模型结构相对简单
- transformer结构,大部分是decoder-only
技术挑战
设备
- 低存储设备(消费级显卡、移动端等)如何部署?
推理
- 如何加速token的生成速度
- 如何解决动态shape,让推理可以不间断
- 如何有效管理和利用内存
服务
- 提升系统整体吞吐量
- 降低请求的平均响应时间
部署方案
技术点
- 模型并行
- 低比特量化
- Attention优化
- 计算和访存优化
- Continuous Batching
LMDeploy
高效推理引擎
- 持续批处理技巧
- 深度优化的低比特计算kernel
- 模型并行
- 高效的k/v缓存管理机制
完备易用的工具链
- 量化、推理、服务全流程
- 无缝对接OpenCompass评测推理精度
- 和OpenAl接口高度兼容的APl server
智能体
大语言模型的局限性
- 最新信息和知识的获取
- 回复的可靠性
- 数学计算
- 工具使用和交互
Lagent
AgentLego