Llama3微调、部署


前言

五一期间参与了书生·蒲语的活动,其中使用InternStudio算力平台和Xtuner库进行。下面是一些具体的项目和实践截图。


一、LLama3的web部署

这里所使用的库是streamlit,直接运行命令行,即可在本地完成web部署。

streamlit run ~/Llama3-Tutorial/tools/internstudio_web_demo.py \
  ~/model/Meta-Llama-3-8B-Instruct

在这里插入图片描述

二、XTuner 微调 Llama3 个人小助手认知

这一步主要使用了下面这条数据进行过拟合:

[
    {
        "conversation": [
            {
                "system": "你是一个懂中文的小助手",
                "input": "你是(请用中文回答)",
                "output": "您好,我是SmartFlowAI,一个由 SmartFlowAI 打造的人工智能助手,请问有什么可以帮助您的吗?"
            }
        ]
    },
    {
        "conversation": [
            {
                "system": "你是一个懂中文的小助手",
                "input": "你是(请用中文回答)",
                "output": "您好,我是SmartFlowAI,一个由 SmartFlowAI 打造的人工智能助手,请问有什么可以帮助您的吗?"
            }
        ]
    }
]

使用的是Qlora微调方式,并使用deepspeed进行加速。微调后,可以改变模型的自我认知,但同时由于过拟合,会出现问什么问题都回答这句话。(这里由于笔者没有保存截图,就不贴了)

三、XTuner 微调 Llama3 图片理解多模态

这一步和上一步的微调方法差不多,需要多加载一个visual encoder,同时需要注意使用deepspeed zero2需要大于24G的内存,当然也可以使用zero2+offload,只需要21G的内存,当然也可以使用Zero3,不过速度会较慢。
在这里插入图片描述

四、LMDeploy 高效部署 Llama3 实践

1. LMDeploy直接部署

在这里插入图片描述

显存情况
在这里插入图片描述

2.Lmdeploy-lite

KVcache使用0.5
在这里插入图片描述
KVcache使用0.01,基本关掉
在这里插入图片描述

3. 使用W4A16量化

在这里插入图片描述

五、Llama 3 Agent 能力体验+微调(Lagent 版)

在这里插入图片描述


总结

以上就是本次Llama3的相关学习,主要关注微调和部署。

参考

  • https://github.com/SmartFlowAI/Llama3-Tutorial/blob/main/docs/hello_world.md
  • https://github.com/InternLM/xtuner
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值