- 博客(2)
- 收藏
- 关注
原创 一文实现Llama 3 图片理解能力微调(XTuner+LLaVA 版)
—““DeepSpeed将当前时刻,训练模型用不到的参数,缓存到CPU中,等到要用到了,再从CPU挪到GPU。但随之的代价就是,更为频繁的CPU,GPU交互,极大增加了训练推理的时间开销”,这个说法不完全准确。这是因为相比GPU,CPU的内存通常更加充裕,而且CPU处理这些数据时虽然速度较慢,但在训练深度学习模型时,这部分计算通常不是性能瓶颈。相反,ZeRO技术通过分片(sharding)的方式,在多个GPU之间分散存储这些参数和状态,同时可能利用CPU内存来存储那些当前不需要直接参与计算的数据。
2024-05-11 21:04:48 2260 2
原创 一文告诉您如何快速实现Llama 3 高效部署实践(LMDeploy版)
默认的比例为0.8。2.上述--cache-max-entry-count参数,设为0.5和0.01时,还有个比较奇怪的现象,就是启动lmdeploy命令刚开始时显存消耗是下降了,但过一会儿有时甚至是1、2秒,就瞬间回到用满显存(该云端配置一般用到22g)的情况。2)跑命令lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct_4bit --model-format awq --cache-max-entry-count 0.01,显存消耗如图。
2024-05-11 01:33:31 769 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人