![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型实战
文章平均质量分 82
aJupyter
自然语言处理方向在读硕士生,CSDN人工智能领域优质创作者,语雀知识库构建者,欢迎大家交流~
https://github.com/aJupyter
展开
-
从零实现GPT【1】——BPE
BPE,字节对编码。原创 2024-06-22 23:17:21 · 634 阅读 · 0 评论 -
一、大模型推理
【代码】一、大模型推理。原创 2024-05-31 11:55:45 · 554 阅读 · 0 评论 -
大模型实战-动手实现单agent
agent 的核心思想:不断调用 LLM(多轮对话),让 LLM 按照指定的格式(例如 json)进行回复,提取 LLM 回复的字段信息执行相应的 action(工具),并把 LLM 每次执行的结果(observation)加入到 LLM 的对话历史中拼接到 prompt 里,作为新一轮的输入。在工具中预设 finsh 工具,告诉模型应该什么时候停止,并获取答案。原创 2024-05-28 17:33:23 · 773 阅读 · 0 评论 -
七、OpenCompass 大模型评测实战
上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。原创 2024-04-28 22:04:39 · 850 阅读 · 0 评论 -
八、大模型微调数据构造
self-instruct:种子数据+AI 生成建立文件夹ruozhiba上传处理后的弱智吧数据,首先新建data文件夹:然后将处理过的训练集train.jsonl和测试集test.jsonl上传到该路径下。原创 2024-04-28 22:06:13 · 1207 阅读 · 0 评论 -
六、Lagent & AgentLego 智能体应用搭建
Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器在本节中,我们将基于 Lagent 自定义一个工具。Lagent 中关于工具部分的介绍文档位于。继承 BaseAction 类实现简单工具的 run 方法;原创 2024-04-28 22:02:08 · 1079 阅读 · 0 评论 -
五、LMDeploy 量化部署 LLM 实践
模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。可以看到,Transformer库的推理速度约为83.026 words/s,注意单位是words/s,不是token/s,word和token在数量上可以近似认为成线性关系。由于官方的Llava模型对中文支持性不好,因此如果使用中文提示词,可能会得到出乎意料的结果,比如将提示词改为“请描述一下这张图片”,你可能会得到类似《印度鳄鱼》的回复。运行时间较长,请耐心等待。原创 2024-04-28 22:00:21 · 460 阅读 · 0 评论 -
四、XTuner 微调 LLM:1.8B、多模态
涵盖了模型基本设置,如预训练模型的选择、数据集信息和训练过程中的一些基本参数(如批大小、学习率等)。:指定了用于训练的模型和分词器的具体类型及其配置,包括预训练模型的路径和是否启用特定功能(如可变长度注意力),这是模型训练的核心组成部分。:描述了数据处理的细节,包括如何加载数据集、预处理步骤、批处理大小等,确保了模型能够接收到正确格式和质量的数据。:配置了优化过程中的关键参数,如学习率调度策略和优化器的选择,这些是影响模型训练效果和速度的重要因素。原创 2024-04-28 21:59:02 · 372 阅读 · 0 评论 -
三、“茴香豆”:搭建你的 RAG 智能助理
RAG(Retrieval Augmented Generation)技术,通过检索与用户输入相关的信息片段,并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。原创 2024-04-28 21:55:36 · 673 阅读 · 0 评论 -
二、轻松玩转书生·浦语大模型趣味 Demo
八戒-Chat-1.8B、Chat-嬛嬛-1.8B、Mini-Horo-巧耳 均是在第一期实战营中运用 InternLM2-Chat-1.8B 模型进行微调训练的优秀成果。其中,八戒-Chat-1.8B 是利用《西游记》剧本中所有关于猪八戒的台词和语句以及 LLM API 生成的相关数据结果,进行全量微调得到的猪八戒聊天模型。作为 Roleplay-with-XiYou 子项目之一,八戒-Chat-1.8B 能够以较低的训练成本达到不错的角色模仿能力,同时低部署条件能够为后续工作降低算力门槛。原创 2024-04-28 21:49:34 · 957 阅读 · 0 评论 -
一、书生·浦语大模型全链路开源体系
文章目录概述亮点亮点一亮点二亮点三亮点四亮点五应用开放体系数据预训练微调评测部署智能体概述亮点亮点一亮点二亮点三亮点四亮点五应用开放体系数据预训练微调评测部署智能体原创 2024-04-28 21:47:59 · 243 阅读 · 0 评论