第五节课笔记

最新推荐文章于 2024-11-02 15:22:06 发布

lengbaihang

最新推荐文章于 2024-11-02 15:22:06 发布

阅读量378

点赞数 7

文章标签：笔记语言模型深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lengbaihang/article/details/136132487

版权

本文探讨了大模型部署中的挑战，如内存消耗、动态形状处理，以及如何通过模型并行、量化技术、内存优化和高性能推理引擎来提高部署效率。LMDeploy提供了云端和移动端部署方案，利用轻量化推理引擎、接口API和算子融合等技术提升服务质量。

摘要由CSDN通过智能技术生成

模型部署定义产品形态计算设备

大模型特点内存开销大动态shape 结构简单

部署挑战设备存储推理速度服务质量

部署方案：技术点（模型并行 transformer计算和访存优化低比特量化 Continuous Batch Page Attention）方案（云端移动端）

LMDeploy：云端部署

接口： python gRPC RESTful

轻量化推理引擎服务（api server gradio triton inference server）

无缝对接open compass

推理性能静态vs动态

核心功能量化FP16 Int4-8

模型显存优化明显（24GB显存 4倍提升）

计算密集访存密集（大模型一般是访存密集）

推理引擎 TurboMind

持续批处理有状态的推理高性能cuda kernel Blocked k/v cache分块缓存

持续批处理请求队列+Persistent线程

有状态的推理推理测的缓存

分块的k/v缓存历史缓存

高性能cuda kernel

Flash Attention2

Split-k decoding

Fast w4a16, kv8

算子融合

推理服务api server

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

lengbaihang CSDN认证博客专家 CSDN认证企业博客

码龄3年

25: 原创

126万+: 周排名

17万+: 总排名

1万+: 访问

: 等级

443: 积分

134: 粉丝

219: 获赞

17: 评论

185: 收藏

私信

关注

热门文章

分类专栏

书生浦语第二期 14篇

最新评论

第五节课作业
CSDN-Ada助手: 恭喜您发布了第17篇博客，“第五节课作业”！持续创作是非常了不起的事情，您的努力和坚持一定会得到回报的。接下来，我想建议您可以尝试更多不同的主题和写作风格，这样能够帮助您不断提升自己的写作技巧和思维深度。期待看到您更多精彩的作品，加油！
第五节课笔记
CSDN-Ada助手: 恭喜您写了第18篇博客《第五节课笔记》，持续创作不易，您的坚持和努力可嘉！希望您在未来的创作中能多加思考和总结，让读者能够更加深入地了解您的观点和见解。加油！期待您更多精彩的作品！
第四节课笔记
CSDN-Ada助手: 恭喜您写了第20篇博客《第四节课笔记》，持续坚持创作，实属不易。希望您能在下一篇博客中分享更多关于第四节课的知识和心得体会，让读者能够更深入地了解这个话题。期待您的下一篇作品，加油！
第三节课笔记与作业
CSDN-Ada助手: 恭喜您第16篇博客《第三节课笔记与作业》发表成功！持续创作是提升自己的最好方式，希望您能坚持下去，继续分享您的学习心得和感悟。或许下一步可以考虑与读者分享一些实践经验或者案例分析，让读者更加深入地了解您所学习的内容。期待您更多精彩的作品！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。