书生浦语全链路开源开放体系（实战训练营第一节课笔记）

最新推荐文章于 2024-08-14 22:10:41 发布

jianfengkexin

最新推荐文章于 2024-08-14 22:10:41 发布

阅读量1k

点赞数 32

文章标签：笔记

本文链接：https://blog.csdn.net/jianfengkexin/article/details/135407431

版权

在观看了陈恺大佬所讲解书生浦语的全链路开放体系视频，感觉还是非常棒的，视频链接我就贴在下面了，大家感兴趣可以查看！书生·浦语大模型全链路开源体系_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Rc411b7ns/?spm_id_from=333.337.search-card.all.click&vd_source=99818a3df596c69ba400b78354d691da

大语言模型发展到今天，其实是已经被很多人所熟知了，但是由于代码的入门门槛，导致很多人还是对开源大语言模型的调用、微调、部署还是非常畏惧的。但是很荣幸能够有这个机会加入到InternLM推出的大语言模型实战训练营中，跟着大佬们的脚步一步步的尝试部署、微调一个自己的模型，完成一些的工作，这个还是非常惊喜的事情！

这个课算是实战训练营的第一课，里面主要讲解一下各个库的内容以及在全链路中扮演的角色，同时将深入浅出的讲解了一下大语言模型的演变以及书生浦语大模型开源历程的演变。作为国内前沿的大语言模型，书生浦语其实已经算了除ChatGLM以及Yi系列以外相对比较实用的中文开源大语言模型了，尤其是InternLM20B的开源让很多商业化的案例成为了可能。

InternLM的模型总共分为以下三个类别：
- InternLM-7B（小型）- 可以低成本微调
- IntermLM-20B（中型）- 商业场景可以定制化开发小规模模型
- InterLM-123B（大型）- 通用大语言模型
我们个人开发者可能用到的就是第一个7B的模型，然后利用这个7B的模型去实现一些工作。而20B则是商业场景开发常会使用的模型，并且是完全开源免费商用的，其综合实力在同类型的模型中也是有所领先的。

当我们选择好模型以后，如何将大语言模型转化为应用也是一个值得思考的问题。在该课程中也详细的提到了这部分的内容。从最开始，在模型选型阶段，我们需要考虑的就是业务场景的是否复杂，假如不复杂的话我们其实就可以直接使用原模型即可。假如场景非常复杂，我们还需要考虑的是算力是不是足够。假如足够的话，我们可以考虑采用续训或者全参数微调的方式实施。但是假如我们算力不足的话，我们则需要考虑部分参数微调的方式实现，这样就可以在节省算力的同时满足实际业务需求。在考虑完算力问题后，我们还需要考虑的是是否需要环境交互。假如不需要交互的话，微调好的模型就可以直接拿去测评使用了。假如需要环境交互，比如说还需要从互联网上获取信息，这时候可能就需要构建智能体来将这部分内容串联在一起实现。最后在模型部署之前，还需要对所有的模型进行测评，以确保模型能够满足要求。假如模型无法满足要求，可能就需要考虑重新微调，重新构建智能体等。下面这个图我认为是在我们构建应用时非常重要的也值得我们反复的去理解查询。那书生浦语的全链条开源开放体系里，其实就包括了所有的这些部分。

- 数据：书生万卷1.0（文本、图像-文本、视频）
- 预训练：InternLM-Train
- 微调：Xtuner（增量续训及有监督微调）（全量参数微调及部分参数微调）、低成本QLoRA（8GB微调大模型）、
- 部署：LMDeploy
- 评测：OpenCompass从学科、语言、知识、理解、推理、安全各个方面都有一些评测的指标和内容。
- 应用：Lagent可以调用工具，这是一个框架。AgentLego是一个工具箱，我们可以创建智能体。然后放到Lagent里使用，也可以连接Langchain和Huggingface。

我们其实就能够通过书生万卷里的数据结合行业本身的一些语料库，根据InternLM的框架进行一键式的模型预训练工作。同时假如我们希望模型掌握对话能力，我们也可以通过网络上一些对话的数据集利用xtuner实现预训练模型的微调工作。在微调完模型后，我们可以通过OpenCompass来实现对该微调模型部分能力的测试工作。并且为了能够更好地部署在本地设备上，我们可以使用LMDeploy实现本地大语言模型的部署。最后假如我们希望能够打通多个语言模型之间的能力，然后实现Agent，我们也可以先通过AgentLego制作好了一个个的Agent然后通过Lagent这个框架来进行Agent的对话。在AgentLego里我们不仅仅可以使用InternLM系列模型，还可以调用上HuggingFace上的很多开源模型一些例如说GPT-3.5等闭源模型。这样我们就能够很好的实现一个大语言模型的实践项目了。那么在后续的课程相信我能够更加深入的了解和学习到这部分的知识和内容，也为我未来对大模型与行业的结合打下坚实的基础。