书生浦语第五课学习笔记&作业

-------------------------------------------------------笔记--------------------------------------------------------------------

本节课课件地址:Tutorial/lmdeploy at camp2 · InternLM/Tutorial · GitHubLLM Tutorial. Contribute to InternLM/Tutorial development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/InternLM/Tutorial/tree/camp2/lmdeploy

本节课主要学习模型部署、模型计算资源简单测算及lmdeploy的使用

1、模型部署定义。

在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。,在AI领域,模型部署是实现深度学习算法落地应用的关键步骤,就是将训练好的深度学习模型在特定环境中进行运行。

补充知识点:本节课拓展学习了docker、docker composer以及K8S的概念

学习视频地址:docker是什么?和kubernetes(k8s)是什么关系?_哔哩哔哩_bilibilidocker是什么?docker架构原理?docker的命令基础docker容器和虚拟机有什么区别?docker compose是什么?docker swarm是什么?docker compose和docker swarm的区别是什么?docker和kubernetes(k8s)的关系是什么?docker swarm和kubernetes(k8s)的差异是什么?, 视频播放量 267263、弹幕量 326、点赞数 17294、投硬币枚数 8399、收藏人数 19502、转发人数 1382, 视频作者 小白debug, 作者简介 公众号「小白debug」前字节程序员,分享只是业余爱好。,相关视频:Kubernetes(k8s)是什么?架构是怎么样的?6分钟快速入门,Docker 是什么?30秒听懂。,Docker 10分钟快速入门,撞~撞~小鹿乱撞✧,用Linux之前 VS 用Linux之后,2024年翻遍整个B站,这绝对是最好的Docker+k8s视频教程,涵盖所有核心知识点,让你少走99%的弯路!,日常键盘清洁护理,有点解压哦,国内Docker镜像源疑似集体停止服务,原神用的是TCP还是UDP? KCP是什么?,这就是一个程序员对自己代码的自信 #程序员icon-default.png?t=N7T8https://www.bilibili.com/video/BV1aA4m1w7Ew/?spm_id_from=333.880.my_history.page.click&vd_source=5acb9d37fc44c924b29ef7311fd62eac

2、前向推理计算量测算公式及访存的定义。

模型访存量指的是模型在计算时所需访问存储单元的字节大小。它反映了模型对存储单元带宽的需求。通常用Bytes(或者KB/MB/GB)来表示,即模型计算到底需要存/取多少Bytes的数据。

3、知识蒸馏

知识蒸馏(Knowledge Distillation)是一种模型压缩和迁移学习的方法,其核心概念是通过一个性能较好的大模型(通常称为“教师模型”或“Teacher Model”)来指导一个较小模型(通常称为“学生模型”或“Student Model”)的训练,以期达到更好的性能和精度。

4、模型剪枝

5、模型量化

通过模型量化技术,可以将浮点数转化为整数形式,减轻对于浮点数计算的负担。

6、LMDeploy简介

他是一个全套轻量化的模型解决方案,主要功能:模型高效推理,模型量化压缩、服务化部署

支持包括llama qwen baichuan等主流国内外模型

7、API请求模型

我们还可以将大模型封装为API接口服务,供客户端调用,成为一种小程序、小组件

-------------------------------------------------------作业--------------------------------------------------------------------

1、配置 LMDeploy 运行环境

通过命令 conda activate lmdeploy激活环境

2、通过命令行进行对话

lmdeploy chat 1.8B模型后启动模型并进行如下对话

心得:模型给我的答复中发现这个官网打不开。。。

3、通过设置KV缓存减少显存占用,发现显存占用下降明显

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.5 命令后,显存使用量降至80%

4、以API接口形式命令行调用模型

lmdeploy serve api_client http://localhost:23333

5、以API接口形式借助gradio进行web端展现

知识补充:gradio

Gradio是一个用于创建机器学习模型交互式界面的Python库。Gradio允许用户快速地为机器学习模型构建一个可视化的、易于使用的Web界面,无需编写任何Web前端代码。它支持多种不同类型的输入(如文本、图像、音频等)和输出(如文本、图像、HTML等),并且可以直接在Python脚本中定义这些输入/输出和处理函数之间的关系。

conda activate lmdeploy

lmdeploy serve gradio http://localhost:23333 \
    --server-name 0.0.0.0 \
    --server-port 6006

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p <你的ssh端口号>

实现webui形式进行模型对话交互,以后可以通过此方式将大模型作为一个桌面小组件。

  • 18
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值