自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 书生大模型实战营第六课笔记

OpenCompass 大模型评测。

2024-02-21 17:23:53 154

原创 书生大模型实战营第五课笔记

有状态的推理是指在缓存中存储内容和token,第一次请求时会创建新的序列,并将token和KV的block存储在缓存中。有状态的推理支持无限长的上下文,但在实际使用中,可能只支持较长的上下文。动态处理是大模型和新设计方法的特点,原来的模型多为生成模型和encoder模型。1. 模型部署是将训练好的模型在特定软硬件环境cpu、tpu、npu啥的上运行,并接受输入并输出特定输出的过程。3. 大模型是动态的,在推理过程中需要将模型放在batch中,并且生成的token数量是动态变化的。

2024-02-21 17:21:36 150

原创 书生大模型实战营第四课笔记

这课不同于第三课,第三课是给模型外挂一个知识库,将用户输入的问题和知识库都传送进interlm,得到最后的输出。这节课是微调模型,自己感觉可能微调的性能会更好(看完这节课再说)。大语言模型是在很多很多数据上进行无监督或半监督训练。增量预训练很好理解,指令跟随不太清楚指令跟随,感觉是像在问问题之前,给系统设定一个某个专业方向的身份,让回答专业一些。感觉是在用户输入之前加了很大一段设定(系统身份)的话,让回答更加准确。这个看起来像是监督训练,给定数据和标签,然后计算输出和标签的损失,将其降到最小。

2024-02-20 19:21:08 1683

原创 书生大模型实战营第三课笔记

对于用户输入,转化成向量,找到相似文本,写到prompt template中,最后交给interlm 最后输出。输入文本向量化,匹配相似文本,嵌入prompt,输入interlm,输出结果。只包含更新时间点之前到知识,高昂的训练成本导致多次训练保证时效性无法实现。第三课:基于 InternLM 和 LangChain 搭建你的知识库。本地文档,转化为文本,分割,转化成向量,存到向量数据库。具有较好的知识广度,细挖垂直领域的专业知识就不行了。新建demo文件夹,新建create_db.py文件。

2024-02-18 23:39:29 218

原创 书生大模型实战营第二课笔记

第二课:两个demo:对话、lagent工具调用。大模型:大量数据训练、参数数十亿,性能惊人。上海人工智能实验室开源两个:interlm-7B和20B灵笔是视觉语言大模型:可创作图文。interlm-7B动手实践:lagent工具调用灵笔图文创作安装包的时候快一些。创建开发机三种开发方式bash # 请每次使用 jupyter lab 打开终端时务必先执行 bash 命令进入 bash 中。

2024-01-15 00:11:01 1319 1

原创 书生大模型实战营第一课笔记

关注不同维度的能力,选型,评估业务场景,复杂的话 要微调,要交互的话 构建智能体,微调后试用并评测,最后解决部署问题,资源占用和吞吐量。万卷数据2TB、预训练 优化了训练效率、微调 全参数和低成本微调、 部署 全链路部署、 评测 公开排行榜、 应用 轻松搭建智能体。介绍了书生浦语全链条的开源开放体系,包括从数据到云训练到微调、到部署、到评测、到应用的完整流程。有精度微调是让模型理解和遵循指令的过程。数据:文本、图像和视频数据,涵盖了科技、文学、媒体、教育和法律等领域。跟Llama70B差不多。

2024-01-14 21:22:29 782

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除