Zhihao_z-CSDN博客

原创书生大模型实战营第六课笔记

OpenCompass 大模型评测。

2024-02-21 17:23:53 208

有状态的推理是指在缓存中存储内容和token，第一次请求时会创建新的序列，并将token和KV的block存储在缓存中。有状态的推理支持无限长的上下文，但在实际使用中，可能只支持较长的上下文。动态处理是大模型和新设计方法的特点，原来的模型多为生成模型和encoder模型。1. 模型部署是将训练好的模型在特定软硬件环境cpu、tpu、npu啥的上运行，并接受输入并输出特定输出的过程。3. 大模型是动态的，在推理过程中需要将模型放在batch中，并且生成的token数量是动态变化的。

2024-02-21 17:21:36 203

原创书生大模型实战营第四课笔记

这课不同于第三课，第三课是给模型外挂一个知识库，将用户输入的问题和知识库都传送进interlm，得到最后的输出。这节课是微调模型，自己感觉可能微调的性能会更好（看完这节课再说）。大语言模型是在很多很多数据上进行无监督或半监督训练。增量预训练很好理解，指令跟随不太清楚指令跟随，感觉是像在问问题之前，给系统设定一个某个专业方向的身份，让回答专业一些。感觉是在用户输入之前加了很大一段设定（系统身份）的话，让回答更加准确。这个看起来像是监督训练，给定数据和标签，然后计算输出和标签的损失，将其降到最小。

2024-02-20 19:21:08 1846

原创书生大模型实战营第三课笔记

对于用户输入，转化成向量，找到相似文本，写到prompt template中，最后交给interlm 最后输出。输入文本向量化，匹配相似文本，嵌入prompt，输入interlm，输出结果。只包含更新时间点之前到知识，高昂的训练成本导致多次训练保证时效性无法实现。第三课：基于 InternLM 和 LangChain 搭建你的知识库。本地文档，转化为文本，分割，转化成向量，存到向量数据库。具有较好的知识广度，细挖垂直领域的专业知识就不行了。新建demo文件夹，新建create_db.py文件。

2024-02-18 23:39:29 251

原创书生大模型实战营第二课笔记

第二课：两个demo：对话、lagent工具调用。大模型：大量数据训练、参数数十亿，性能惊人。上海人工智能实验室开源两个：interlm-7B和20B灵笔是视觉语言大模型：可创作图文。interlm-7B动手实践：lagent工具调用灵笔图文创作安装包的时候快一些。创建开发机三种开发方式bash # 请每次使用 jupyter lab 打开终端时务必先执行 bash 命令进入 bash 中。

2024-01-15 00:11:01 1355 1

原创书生大模型实战营第一课笔记

关注不同维度的能力，选型，评估业务场景，复杂的话要微调，要交互的话构建智能体，微调后试用并评测，最后解决部署问题，资源占用和吞吐量。万卷数据2TB、预训练优化了训练效率、微调全参数和低成本微调、部署全链路部署、评测公开排行榜、应用轻松搭建智能体。介绍了书生浦语全链条的开源开放体系，包括从数据到云训练到微调、到部署、到评测、到应用的完整流程。有精度微调是让模型理解和遵循指令的过程。数据：文本、图像和视频数据，涵盖了科技、文学、媒体、教育和法律等领域。跟Llama70B差不多。

2024-01-14 21:22:29 808 1