2024.1 书生·浦语大模型实战营第 5 节课堂笔记

godlikesun97

已于 2024-02-21 00:25:56 修改

阅读量387

点赞数 10

文章标签：笔记 ai

于 2024-02-21 00:02:35 首次发布

本文链接：https://blog.csdn.net/godlikesun97/article/details/136193002

版权

项目地址：GitHub - InternLM/tutoriald

第五节课视频地址：LMDeploy 大模型量化部署实践_哔哩哔哩_bilibili

大模型特点：

· 内存和显存开销大：

参数大：7B模型需要14G内存

缓存大：自回归生成需要Attention的k/v

· 动态shape：batch不固定

· 模型结构简单：Decoder-only, 逐token生成

大模型部署的挑战：

· 设备：移动设备、未联网设备如何部署

· 推理：从输入问题到输出答案，解决token生成、动态shape、高效内存管理等问题

· 服务：server吞吐量，平均响应时长

大模型部署方案

· 技术点：模型并行、低比特量化、transformer计算和访存优化等

· 方案：huggingface transformer、 lmdeploy、 deepspeed、llama.cpp等

LMDeploy简介

LMDeploy包括了模型的轻量化、推理引擎、服务

LM Deploy在静态和动态推理中性能出色：

LMDeploy核心功能

量化

为什么要做量化：节省显存，容纳更长的token length

提升推理速度：大语言模型是访存密集型任务，量化可以减少访存耗时

推理引擎 TurboMind

· 持续批处理

· 有状态的推理

· 分块（Blocked）k/v cache

· 高性能cuda kernel

持续批处理：

有状态的推理

Blocked k/v cache

高性能cuda kernel

推理服务api server

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

godlikesun97

关注关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Keras深度学习实战——使用循环神经网络构建情感分析模型

盼小辉丶的博客

10-05

4501

我们已经了解循环神经网络 (Recurrent neural networks, RNN) 的基本原理，并且在 Keras 中实现了 RNN 模型，在本节中，我们介绍了如何构建 RNN 模型进行航空推文情感分类。

学习笔记 | LMDeploy 量化部署 LLM-VLM 实践

DrFlown的博客

04-22

1603

根据InternLM2技术报告提供的模型参数数据，以及KV Cache空间估算方法，以FP16为例，在batch-size为16、输入512 tokens、输出32 tokens的情境下，仅20B模型就会产生10.3GB的缓存。该过程在新版本的LMDeploy中是自动进行的，无需用户操作。 TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎，它的主要功能包括：LLaMa 结构模型的支持，continuous batch 推理模式和可扩展的 KV 缓存管理器。

参与评论您还未登录，请先登录后发表或查看评论

Vue项目实战： Ant Design Pro大型开源项目构建实践笔记(1)

林夏天的博客

02-01

2904

Vue.js项目实战1 ： Ant Design Pro大型开源项目构建实践学习笔记使用Vue CLI 3快速创建项目 / 自定义Webpack和Babel配置 1. 使用Vue CLI快速创建项目选择自定义配置创建： 2. 坑点1 在创建完项目后，用VS Code打开项目，启动项目：npm run serve 在入口文件中引入组件: 在App.vue中更改：重新启动项目...

10 Loaders加载模型到Three.js

现在学习也不晚

10-08

1万+

现在市面上的3D模型有上百种，每一种的格式都有不同的用途，不同的功能和复杂程度。尽管Three.js提供了很多的加载器，但选择正确的格式和工作流程将在以后节省时间和成本。而且某些格式难以使用，效率低下或者目前还未完全支持。推荐使用的模型格式官方推荐我们使用的3D模型的格式为glTF，由于glTF专注于传输，因此它的传输和解析的速度都很快。glTF模型功能包括：网格，材质，纹理，蒙皮，骨...

【Dlib人脸特征提取】1. 训练人脸特征点模型

普罗米修斯的博客

06-06

5728

【 1. 数据集】前面使用的Dlib中提供的68点特征检测模型，使用的数据集来自300-W(300 Faces In-The-Wild Challenge)。300-W是一项专注于人脸特征点的检测的竞赛，通常与ICCV这类著名的计算机视觉活动相伴举行。在该竞赛中，参赛队伍需要从600张图片中检测出人脸，并且将面部的68个特征点全部标记出来。 300W数据的压缩包有2G多。包含各种各样已经标记好的人脸信息。因为在如此大的数据集上训练需要大量的资源和时间。所以，在本次实训的学习中，我们使用极少量的数据集

【课堂笔记】2_轻松玩转书生·浦语大模型趣味Demo

sxswz的博客

01-10

1032

什么是大模型?人工智能领域中参数数量巨大、拥有庞大计算能力和参数规模的模型。特点及应用利用大量数据进行训练拥有数十亿甚至数千亿个参数模型在各种任务中展现出惊人的性能lnternLM模型全链条开源InternLM是一个开源的轻量级训练框架，旨在支持大模型训练而无需大量的依赖。基于InternLM训练框架，上海人工智能实验室已经发布了两个开源的预训练模型:InternLM-7B和InternLM-20B。

Java开发实战1200例第1卷.pdf.part1

12-07

《Java开发实战1200例》以开发人员在项目开发中经常遇到的问题和必须...《Java开发实战1200例》非常适合Java项目开发人员、Java初学者及编程爱好者使用，同时也可以作为培训机构、大中专院校老师和学生的实践参考用书。

jdk-1_5_0_22-windows-i586-p.exe

09-29

JDK1.5 目前更新到最高版本，eclipse的8个小时的误差，也解决了！

html5shiv.js

10-19

为了让所有网站浏览者都能正常的访问网站，解决方案就有下面两个： 1.为网站创建多套模板，通过程序对User-Agent的判断给不同的浏览器用户显示不同的页面，比如优酷网就是采用的这种模式。 2.使用Javascript来使不...

rk3588对npu的再探索，yolov5使用rknn模型推理教程

热门推荐

振华OPPO的博客世界

08-17

1万+

博主在瑞芯微ITX-3588J-8K的开发板上跑了yolov5目标检测算法，调用了外置相机获取rtsp视频流，但是每帧处理需要833ms左右，和放PPT一样。本来想使用tensorrt进行加速推理，但是前提需要cuda，rk的板子上都是arm的手机gpu，没有nvidia的cuda，所以不能这样适配。那么转过来，使用开发板自带的NPU进行加速推理，岂不是最佳方案，因为它本身就是人工智能开发板，不用NPU相当于没有发挥它的全部能力。.........

C++学习笔记----6、内存管理（五）---- 智能指针（3）

weixin_71738303的博客

09-11

1159

与指向特定类型的原始指针可以转化为不同类型的指针一样，shared_ptr保存特定的类型可以转化为一个另一种类型的shared_ptr。转化shared_ptr的函数是const_pointer_cast()，dynamic_pointer_cast(),static_pointer_cast()和reinterpret_pointer_cast()。前面简要提过，当拥有共享属主的智能指针，例如shared_ptr不在活动范围或者被重置时，只有它是最后指向的智能指针时才能释放其指向的资源。

UEFI学习笔记（五）：EDK II PCD的概念、类型、使用

qq_44189622的博客

09-11

829

如果在BIOS里面有一些模块是binary方式集成进来的而这些binary又需要用到PCD（用于Binary Release），那么这些Binary集成的要用到的PCD就必须要设置为。PCD的值存在memory里面，下次启动时，上次更改的值丢失了，每次启动都是从default值开始。是存在VPD空间的（在FLASH上，只读），一般是出厂配置。如果platform是从源码build出来的，没有binary在里面的时候，PCD用的都是。作用域在一个模块中（模块级的），可以在Binary Level进行修改。

OJ在线判题系统项目笔记

今天不coding的博客

09-11

771

OJ在线判题系统项目笔记

经验笔记：Web 浏览器存储手段

qq_45831414的博客

09-10

878

以上就是使用 IndexedDB 的基本步骤。IndexedDB 提供了强大的数据存储能力，并且可以通过索引来优化数据检索性能。在实际应用中，可能还需要处理更复杂的场景，比如数据迁移、错误处理等。务必确保你的代码能够妥善处理各种异常情况。

Netty笔记03-组件Channel

weixin_46425661的博客

09-12

749

本文主要讲解Netty中的组件Channel、ChannelFuture和CloseFuture

17、电科院FTU检测标准学习笔记-录波性能

2024.1 书生·浦语大模型实战营 第 5 节 课堂笔记

大模型特点：

大模型部署的挑战：

大模型部署方案

LMDeploy简介

LMDeploy核心功能

量化

推理引擎 TurboMind

推理服务api server

2024.1 书生·浦语大模型实战营第 5 节课堂笔记