ch5-LMDeploy大模型量化部署实践
主要内容
- 视频网址:https://www.bilibili.com/video/BV1iW4y1A77P/?spm_id_from=333.788&vd_source=b96c7e6e6d1a48e73edafa36a36f1697
- 教程主页:https://github.com/InternLM/tutorial
- LMDeploy主页:https://github.com/InternLM/lmdeploy
主要内容如下:
基本就是对大模型部署的定义、特点、挑战以及部署方案进行了简单的介绍,主打一个了解就好,还是得靠动手实践,再回来慢慢看理论理解~
大模型部署背景
首先简单介绍了大模型部署的定义以及大模型的特点:
然后针对大模型的这三个典型特点,引出了大模型部署的挑战和方案介绍:
LMDeploy简介
- LMDeploy主页:https://github.com/InternLM/lmdeploy
底层是用C++写的,接口支持python,very nice
官方秀了一下推理性能:
第一个核心功能:量化
第二个核心功能:推理引擎TurboMind
第三个核心动能:推理服务api server
动手实践环节
动手实践请详见下期博客作业完成情况~