书生大模型笔记5

最新推荐文章于 2024-10-18 22:34:44 发布

千恋茉子

最新推荐文章于 2024-10-18 22:34:44 发布

阅读量410

点赞数 9

文章标签：笔记人工智能深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54824511/article/details/135573678

版权

哇塞，这节课1h30min，有得学了！

本节课主题是LMDeploy大模型量化部署，本笔记记录了理论部分。

大模型部署背景

回顾大模型特点：

内存开销巨大

庞大的参数量。 7B 模型仅权重就需要 14+G 内存
采用自回归生成 token，需要缓存 Attention 的 k/v,带来巨大的内存开销

动态shape

请求数不固定
Token 逐个生成，且数量不定

相对视觉模型，LLM结构简单

Transformers 结构，大部分是 decoder-only

模型部署是什么？

定义：

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果
为了满足性能和效率的需求，常常需要对模型进行优化，例如模型压缩和硬件加速

产品形态：

云端、边缘计算端、移动端

面临问题：

设备

如何应对巨大的存储问题? 低存储设备 (消费级显卡、手机等)如何部署?

推理

如何加速 token 的生成速度如何解决动态shape，让推理可以不间断如何有效管理和利用内存

服务

如何提升系统整体吞吐量?对于个体用户，如何降低响应时间?

现如今采用的大模型部署方案：

LMDeploy介绍

LMDeploy 是 LLM 在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。

一些好的特性

turbomind推理引擎室mmdeploy的创新点，是重点。（这部分的底层引擎是c++，但是mmdeploy封装是python，使用起来是用python）

opencompass是一个评测repo。

推理性能超越vLLM

核心功能（主要理念在这部分）：

量化

两个基本概念

计算密集 (compute-bound) : 推理的绝大部分时间消耗在数值计算上针对计算密集场景，可以通过使用更快的硬件计算单元来提升计算速度比如量化为 W8A8 使用 INT8 Tensor Core 来加速计算。
访存密集 (memory-bound) : 推理时，绝大部分时间消耗在数据读取上;针对访存密集型场景，一般是通过提高计算访存比来提升性能。

LLM 是典型的访存密集型任务

常见的 LLM 模型是 Decoder Only 架构。推理时大部分时间消耗在逐Token 生成阶段 (Decoding 阶段) ，是典型的访存密集型场景如图，A100 的 FP16 峰值算力为 312 TFLOPS，只有在 Batch Size 达到128 这个量级时，计算才成为推理的瓶颈，但由于 LLM 模型本身就很大推理时的 KV Cache 也会占用很多显存，还有一些其他的因素影响 (如Persistent Batch) ，实际推理时很难做到 128 这么大的 Batch Size。

量化方法的对应论文：MIT HAN LAB最新的的AWQ算法，GPTQ算法

推理引擎turbomid

四大特性

推理服务 api server

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄4年

24
原创

73
点赞

87
收藏

579
粉丝

关注

私信

热门文章

分类专栏

书生大模型笔记 1篇

最新评论

关于本次活动超算平台的vscode远程连接（新人向）
Ctenophora: 我也是到最后一步一直连接失败，感觉也不是秘钥的问题
书生大模型笔记1
CSDN-Ada助手: 恭喜您写了第20篇博客！看到您对书生大模型的笔记，我感到非常期待。希望您可以继续保持创作的热情，不断提升自己的写作水平。下一步，可以考虑增加一些案例分析或者实际应用，让读者更好地理解和运用书生大模型。期待您的下一篇博客！加油！
openmmlab-ai训练营2期-第一次直播总结笔记
CSDN-Ada助手: 恭喜您写了第10篇博客，这篇关于openmmlab-ai训练营2期的总结笔记看起来非常有价值。希望您能继续保持创作的热情，不断分享您的经验和见解。下一步，我建议您可以探索一些新领域，或者深入研究某个特定的主题，这样能够让您的读者更好地了解您的专业知识和技能。再次感谢您的分享，期待您更多的优秀作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
关于本次活动超算平台的vscode远程连接（新人向）
千恋茉子: 不好意思才看到评论，csdn玩得不熟练；可能出现的问题就是你的秘钥不对劲，你可以试着重新建立新的秘钥来完成（就像文章中说的，我之前使用的ed25519类型的秘钥不行，后来换一个类型就行了）
关于本次活动超算平台的vscode远程连接（新人向）
山青.: 请问大佬我到最后一步打开的时候一直显示连接失败是咋回事啊？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。