monkey low-CSDN博客

原创 Jetson agx orin 64G LLM 微调、量化、部署（二）

前言：之前按照网络上的帖子，直接把lora和base合并后，使用llama cpp进行量化，但结果非常不理想，量化后的模型不但失去了Lora权重的能力，并且本身的推理能力也下降了。1. 使用llamacpp，带cuda编译完成后，运行发现gpu未使用，需要增加某个参数，把模型从CPU转到GPU，具体看llamacpp的官方文档。2. 量化后的base直接加载lora，速度很慢，把lora转换为int8的gguf格式，速度正常（最终约比base慢10%）记录其中踩的坑点（主要是jetson的特性）

2024-08-20 17:28:16 271

原创 Jetson agx orin 部署 qwen14B 微调、量化实践

硬件条件：256G 固态硬盘数据线目的：在云端微调模型，在jetson上进行合并和量化，每次更新模型只需要同步微调权重，减少网络压力（12G ->200M）。

2024-08-14 10:25:00 615 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Jetson agx orin 64G LLM 微调、量化、部署（二）

原创 Jetson agx orin 部署 qwen14B 微调、量化 实践

空空如也

空空如也

原创 Jetson agx orin 部署 qwen14B 微调、量化实践