奇迹学长-CSDN博客

原创书生·浦语-（七）OpenCompass 大模型评测实战（作业）

使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能。

2024-04-24 18:08:10 240

原创书生·浦语-（七）OpenCompass 大模型评测实战

现在市面上已经存有各种大预言模型，对这么多的大语言模型进行评测是区分模型效果好坏的重要指标，大语言模型的评测在全面性、评测成本、数据污染、鲁棒性等方面面临很多挑战。OpenCompass是一款大模型开源开放评测体系，用于为大语言模型、多模态模型等提供一站式评测服务。

2024-04-24 17:56:43 566

原创书生·浦语--（五）LMDeploy 量化部署 LLM-VLM 实践（基础作业）

W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。两种不同的设置反应在不同的显存使用上，对于--cache-max-entry-count = 0.01来说基本不使用额外显存存储KV参数，显存的消耗跟载入一个1.8B模型的参数量基本相同，但此时推理速度大大降低。LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。

2024-04-23 21:48:36 949

原创书生·浦语-（五）-LMDeploy量化部署LLM实践

部署：指的是将开发完毕的软件投入使用的过程人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程· LLM参数量巨大，前向推理inference需要大量计算· GPT3有175B，20B的算小模型了· 内存开销巨大，FP16，20B模型加载参数需要显存40G+，175B模型需要350G+· 20B模型kv缓存需要显存10G，合计需要50G显存· RTX 4060X消费级独显，显存8G· 访存瓶颈，数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。

2024-04-23 21:27:31 389

原创书生·浦语（四）XTuner 微调（基础作业）

不使用DeepSpeed：由于数据集较小，且使用的最小的 1.8B 模型，加之本地算力资源充足，因此其实不必使用DeepSpeed进行显存压缩与训练加速。对话测试：分别运行下述两行代码，调用微调后的模型于原模型进行测试，以对比微调效果。LoRA 或者 QLoRA 微调出来的模型其实并不是一个完整的模型，而是一个额外的层（adapter) 需要与原模型组合才能正常的使用。全量微调的模型（full）则无需整合，因为全量微调修改的是原模型的权重而非微调一个新的 adapter ，因此是无需进行模型整合。

2024-04-23 21:12:43 554

原创书生·浦语（四）XTuner 微调 LLM：1.8B、多模态、Agent

本次课程包括理论和实践两大部分，学习如何使用Xtuner微调大语言模型（LLM），比如1.8B参数的模型，以及为什么要微调大语言模型，微调模型的基本流程。：微调可以帮助模型在特定任务上表现得更好，如通过调整模型参数以更精确地对任务特有的特征进行建模，从而提高分类准确率、生成的质量或其他性能指标。文本单模态：首先使用文本Embedding模型对用户的输入文本，转化为文本向量，将文本向量预测输出文本。QLoRA 微调：模型本身加载到显存中的时候，就已经使用4bit量化的方式，不那么精确的方式加载。

2024-04-23 20:51:14 1016

原创书生·浦语Lagent＆AgentLego作业（六）

采用模型（internlm/internlm2-chat-20b）并使用4bit进行量化加载。1，完成 AgentLego 直接使用部分，并在作业中上传截图。2，完成 AgentLego 直接使用部分，并在作业中上传截图。2，安装lagent，agentlego。4，准备 Tutorial。二，自定义工具并完成调用。

2024-04-22 21:37:18 183

原创书生·浦语（六）Legent 和 AgentLego智能体应用搭建

它由大脑、感知和动作三部分组成，能够感知环境、影响环境并进行推理。

2024-04-22 21:10:13 477 1

原创第三节作业茴香豆：搭建你的RAG智能助理

第一次提问：凝聚态物理相关的图书有哪些。能够结合知识库文档进行回答了，继续提问。创建知识库，输入知识库名称与密码。点击前往，知识库创建完成。

2024-04-14 18:57:44 345 1

原创书生·浦语大模型趣味（三）茴香豆-搭建RAG智能助理

RAG（Retrieval Augmented Generation）技术是一种结合检索和生成的方法，旨在提高大型语言模型（LLMs）在知识密集型任务中的性能。通过检索与用户输入相关的信息片段，并结合外部知识库，RAG技术能够生成更准确、更丰富的回答。这对于解决LLMs在处理复杂问题时可能遇到的挑战，如幻觉、知识过时和缺乏透明、可追溯的推理过程等问题，具有重要意义。

2024-04-14 18:38:53 481 1

原创轻松玩转书生·浦语大模型趣味（二） Demo作业

填写开发机名称后，点击选择镜像使用 Cuda11.7-conda 镜像，然后在资源配置中，使用 10% A100 * 1 的选项，然后立即创建开发机器。首先，打开 Intern Studio 界面，点击创建开发机配置开发机系统。1.2 下载 InternLM2-Chat-1.8B 模型。通过左侧文件夹栏目，双击进入 demo 文件夹。1.3 运行 cli_demo。请创作一个 300 字的小故事。点击进入开发机选项。1.1 配置基础环境。

2024-04-13 18:59:09 282 1

原创书生·浦语大模型第二节：Demo实践

打开 lagent 路径，在 terminal 中输入指令，构造软链接快捷访问方式，打开 lagent 路径下 examples/internlm2_agent_web_demo_hf.py 文件并修改，输入运行命令 - 点开 6006 链接后，大约需要 5 分钟完成模型加载，待程序运行的同时，对端口环境配置本地 PowerShell。输入命令，启动InternLM-XComposer，待程序运行的同时，对端口环境配置本地 PowerShell。2，部署实战营优秀作品八戒-Chat-1.8B 模型。

2024-04-06 20:10:57 851 1

原创书生-浦语大模型与人工智能

本次课程主要对大语言模型进行了一次大致介绍。20B模型在推理数学代码等方面的性能优于GP3.5和germini pro，模型在综合性能方面达到同量级的开源模型领先水平，模型内生的计算能力和数据分析功能能够处理复杂的任务和数据分析。大模型2.0提供了不同尺寸和类型，支持多语言和多模态任务，语言知识、推理、数学、代码等各方面有不错的表现，同时还介绍了模型的应用和数据分析功能。模型选型是第一步，需要考虑模型的复杂度和算力，根据实验设备算力是否足够选择微调，在训练完模型后对模型做一个评测，使评测指标达到效果。

2024-04-01 19:56:03 278 1