书生浦语大模型是上海人工智能实验室搞得开源项目,可以说大模型领域的openmmlab。
其强大之处就在于其有一个非常完善的体系,具体来讲:
数据层面
推出了书生万卷多模态开源数据集,其包含总计超2TB多模态多领域数据,其中文本数据超1TB,图像-文本对超140GB,视频数据超900GB,并且文本数据还进行了价值观对齐
模型微调
在大语言模型的应用中,应用xtuner,可以使用8G消费级显卡进行微调训练
数据评测
使用oepncompress进行评测,覆盖范围全面,包括语言,学科,知识,理解,推理以及安全多个维度
模型部署
基于LMDeploy进行大模型部署,包含轻量化,支持动态推理,高效的k/v缓存处理
智能体
多模态智能体AgentLego