自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 vllm部署大模型的参数--dtype和量级AWQ有什么区别

量化方法,如 **AWQ(Adaptive Weight Quantization)**,是指通过特定的算法将模型权重和激活值从高精度格式(如FP32)转换为低精度格式(如INT8)的过程。- **INT8(8-bit Integer)**:8位整数,极大地减少内存和计算资源消耗,但需要特别的量化和反量化处理,以保持模型性能。- **影响**:通过量化和反量化过程,优化模型的内存和计算资源消耗,同时尽量保持模型性能。- **示例**:`--dtype=fp16`,表示使用16位浮点数进行计算。

2024-08-16 16:49:57 911

原创 vllm框架大模型部署笔记

注意:张量并行计算的并行度通常需要与指定的 GPU 数量保持一致。这是因为张量并行计算的核心思想是将模型的张量(如权重矩阵)分割成多个部分,并将这些部分分布到多个 GPU 上进行并行计算。:通过存储进程 ID,可以方便地管理和终止后台运行的程序。

2024-08-12 09:50:32 1219

原创 python在linux服务器使用plt.show()无效

这是因为linux系统没有图形界面。保存成png图片然后在程序运行后查看。

2024-07-17 11:29:57 263

原创 个人微调qwen2-7B笔记

这里由于数据处理的时间太久,我们只用了10条数据训练,代码通过,但是测试的时候出现内存溢出的情况,显示显存不够了,接下来我们直接申请A800试一试...数据集下载:直接下载,别用git,会因为文件太大,git版本等问题出错。可视化工具:swanlab。大模型:qwen2-7B。

2024-07-16 22:13:46 993

原创 个人搭建qwen2大模型过程笔记

配置:4090,24G显存,windterm远程,vscode等基于软件就不说了。第一步:申请资源,创建python环境(autodl自带conda环境)哼...,pip install vllm不行,使用下面结束!第三步:下载qwen2-7B大模型(确保下载完)

2024-07-11 00:27:31 1352

原创 Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same

【代码】Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same。

2023-07-29 23:28:30 144

原创 pytorch中关于模型的保存分为三种形式

【代码】pytorch中关于模型的保存分为三种形式。

2023-07-29 19:27:32 2697 1

原创 如何将pytorch的模型和tensorflow的summary()函数一样,展示模型的细节?

【代码】如何将pytorch的模型和tensorflow的summary()函数一样,展示模型的细节?

2023-07-29 17:55:29 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除