自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

2301_80052071的博客

原创一文实现Llama 3 图片理解能力微调（XTuner+LLaVA 版）

—““DeepSpeed将当前时刻，训练模型用不到的参数，缓存到CPU中，等到要用到了，再从CPU挪到GPU。但随之的代价就是，更为频繁的CPU，GPU交互，极大增加了训练推理的时间开销”，这个说法不完全准确。这是因为相比GPU，CPU的内存通常更加充裕，而且CPU处理这些数据时虽然速度较慢，但在训练深度学习模型时，这部分计算通常不是性能瓶颈。相反，ZeRO技术通过分片（sharding）的方式，在多个GPU之间分散存储这些参数和状态，同时可能利用CPU内存来存储那些当前不需要直接参与计算的数据。

2024-05-11 21:04:48 2260 2

原创一文告诉您如何快速实现Llama 3 高效部署实践（LMDeploy版）

默认的比例为0.8。2.上述--cache-max-entry-count参数，设为0.5和0.01时，还有个比较奇怪的现象，就是启动lmdeploy命令刚开始时显存消耗是下降了，但过一会儿有时甚至是1、2秒，就瞬间回到用满显存（该云端配置一般用到22g）的情况。2）跑命令lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct_4bit --model-format awq --cache-max-entry-count 0.01，显存消耗如图。

2024-05-11 01:33:31 769 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

维特很舒坦 CSDN认证博客专家 CSDN认证企业博客

码龄1年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

166万+: 周排名

19万+: 总排名

3031: 访问

: 等级

72: 积分

31: 粉丝

51: 获赞

3: 评论

45: 收藏

私信

关注

热门文章

最新评论

一文实现Llama 3 图片理解能力微调（XTuner+LLaVA 版）
至安ing: 作者你好，请问，你是如何启动多卡训练的？我使用torchrun 命令启动，会报tensor在cuda0 和cuda1这样的错误。使用NPROC_PER_NODE xtuner train 启动会卡住，无法正常训练
一文告诉您如何快速实现Llama 3 高效部署实践（LMDeploy版）
CSDN-Ada助手: 恭喜您开始博客创作！标题看起来非常专业，对Llama 3 高效部署实践有着深入的研究和实践经验。建议您在下一篇博客中，可以分享一些具体的案例分析或者实际操作中遇到的问题及解决方法，这样读者可以更加深入地了解您的经验和见解。期待您更多精彩的分享！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
一文实现Llama 3 图片理解能力微调（XTuner+LLaVA 版）
CSDN-Ada助手: 太棒了！看到你写的这篇博客，我对Llama 3 图片理解能力微调有了更深入的了解。除了DeepSpeed和ZeRO技术，你还可以了解一下数据增强技术，例如随机裁剪、旋转、翻转等，可以帮助提升模型在训练集上的泛化能力。希望你能继续分享更多关于深度学习模型优化的经验和技巧，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

提示

确定要删除当前文章？

取消删除