- 博客(8)
- 收藏
- 关注
原创 vllm部署大模型的参数--dtype和量级AWQ有什么区别
量化方法,如 **AWQ(Adaptive Weight Quantization)**,是指通过特定的算法将模型权重和激活值从高精度格式(如FP32)转换为低精度格式(如INT8)的过程。- **INT8(8-bit Integer)**:8位整数,极大地减少内存和计算资源消耗,但需要特别的量化和反量化处理,以保持模型性能。- **影响**:通过量化和反量化过程,优化模型的内存和计算资源消耗,同时尽量保持模型性能。- **示例**:`--dtype=fp16`,表示使用16位浮点数进行计算。
2024-08-16 16:49:57 911
原创 vllm框架大模型部署笔记
注意:张量并行计算的并行度通常需要与指定的 GPU 数量保持一致。这是因为张量并行计算的核心思想是将模型的张量(如权重矩阵)分割成多个部分,并将这些部分分布到多个 GPU 上进行并行计算。:通过存储进程 ID,可以方便地管理和终止后台运行的程序。
2024-08-12 09:50:32 1219
原创 个人微调qwen2-7B笔记
这里由于数据处理的时间太久,我们只用了10条数据训练,代码通过,但是测试的时候出现内存溢出的情况,显示显存不够了,接下来我们直接申请A800试一试...数据集下载:直接下载,别用git,会因为文件太大,git版本等问题出错。可视化工具:swanlab。大模型:qwen2-7B。
2024-07-16 22:13:46 993
原创 个人搭建qwen2大模型过程笔记
配置:4090,24G显存,windterm远程,vscode等基于软件就不说了。第一步:申请资源,创建python环境(autodl自带conda环境)哼...,pip install vllm不行,使用下面结束!第三步:下载qwen2-7B大模型(确保下载完)
2024-07-11 00:27:31 1352
原创 Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same
【代码】Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same。
2023-07-29 23:28:30 144
原创 如何将pytorch的模型和tensorflow的summary()函数一样,展示模型的细节?
【代码】如何将pytorch的模型和tensorflow的summary()函数一样,展示模型的细节?
2023-07-29 17:55:29 301
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人