一、关卡任务
观看本关卡视频后,写一篇关于书生大模型全链路开源开放体系的笔记。
视频链接:【书生·浦语大模型全链路开源体系】 https://www.bilibili.com/video/BV18142187g5/?spm_id_from=333.788&vd_source=cb8bc4312b30b416beadaad7244940ac
快速了解书生大模型相关的内容
书生大模型开发体系涵盖了:数据收集、标注、训练、微调、评测、部署等全链路。
发展历程
- 7B 模式适用于个人
- 20B 的模型是商业界模型
- InternLM2 达到了业界顶级水平(牛逼!)
InternLM 并非单指模型,而是说的整个体系~
模型本身的推理性能,和上下文的理解都有质的飞跃。
核心技术思路
不断的训练模型,然后再利用模型标注数据,训练数据。循环反复。一个非常经典的”数据“众包”思路。google tflite 的人脸特征点识别模型也是采用的这种思路。这种模型训练思路个人认为非常值得借鉴~。
在数据上,也下了很大功夫
长文本检索和总结性能
基于规划和搜索解决复杂问题
- 问题分析
- 思维路径拆解
- 内容整合
书生大模型不仅可以部署在大规模的服务器上,也可以用于端侧应用
书生大模型的生态链很全面。不懂 dl 代码也可以微调,非常赞!后期需要部署自己的定制化模型,这种生态链全面的非常适合入手。
数据
海量的数据,确保了书生大模型的性能。
书生大模型也提供了很多高质量的工具。尤其是 label LLM / Label U 这些标注工具。可以借助这些标注工具标注数据,微调一个细分领域的任务。
训练
微调 XTuner
大模型评测体系
部署 LMDeploy
智能体
茴香豆
开业免费支持商用的企业家知识库构建工具。
总结
书生大模型体系非常完善,从微调到部署一应俱全。部署上也支持模型压缩、量化、分发,兼容性好;并且贴心的提供了 web demo,快速部署。