书生·浦语大模型第五课笔记

本文介绍了大模型部署的背景,特别关注了LMdeploy,一个专为英伟达平台设计的解决方案,其核心功能包括量化(如WeightOnly量化)、高效的推理引擎TurboMind以及推理服务。文中提及了针对大模型的多种技术策略,如模型并行化和优化算法。
摘要由CSDN通过智能技术生成


大模型部署背景

   模型部署指得是将训练好模型部署到特定的软硬件环境中进行启动,对于大模型而言,其特点在于内存开销巨大,shape是动态,但是相对视觉模型,LLM的结构比较简单,大部分是decoder-only
在这里插入图片描述
目前针对大模型部署,常见的技术点包括模型并行,低比特量化,Page Attention, transformer 计算和访存优化,Continous Batch, 方案有常见lmdeploy,vllm,tensorrt-llm,deepspeed, 移动端有llama.cpp, mlc-llm
在这里插入图片描述


LMdeploy介绍

   LMdeploy是一个一个在英伟达部署的全流程解决方案,包括轻量化,推理和服务
在这里插入图片描述

核心功能—量化

LMDeploy相比其他框架具有不错的效果
在这里插入图片描述
在这里插入图片描述
LLM是典型的访存密集型任务
在这里插入图片描述
使用AWQ算法实现Weight Only量化
在这里插入图片描述

核心功能—推理引擎TurboMind

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

核心功能—推理服务 (api server)

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值