transformers 实现多卡推理

最新推荐文章于 2024-07-17 16:18:42 发布

qq_41560297

最新推荐文章于 2024-07-17 16:18:42 发布

阅读量3.4k

点赞数 2

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/qq_41560297/article/details/131643048

版权

import os

import platform

import signal

from transformers import AutoTokenizer, AutoModel,AutoModelForCausalLM

import readline

import torch.nn as nn

# os.environ["CUDA_VISIBLE_DEVICES"] = '1'

max_memory_mapping = {0 : "10GB", 1 :"11GB"}

tokenizer = AutoTokenizer.from_pretrained('your_model_path', trust_remote_code=True)

model = AutoModel.from_pretrained("your_model_path",

device_map= 'auto',

load_in_8bit = False,

max_memory = max_memory_mapping,

trust_remote_code=True).half().cuda()

model = model.eval()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_41560297

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
transformers 实现多卡推理

import os。
复制链接

扫一扫

利用device_map实现多卡训练：model = AutoModelForCausalLM.from_pretrained(model_name, device_map=‘auto‘)【取代DP】

u013250861的博客

03-06

1843

【代码】利用device_map实现多卡训练：model = AutoModelForCausalLM.from_pretrained(model_name, device_map='auto')【取代DP】

transformers加载模型时自动选择空闲的多个GPU的实战代码

热门推荐

weixin_43178406的博客

07-26

5万+

本文主要介绍了transformers加载模型时自动选择空闲的多个GPU的实战代码，希望能对使用huggingface transformers的同学们有所帮助。文章目录 1. 背景描述 2. 实战 2.1 安装Python库 2.2 实战代码

2 条评论您还未登录，请先登录后发表或查看评论

【AI大模型】Transformers大模型库（七）：单机多卡推理之device_map

人工智能领域博客

06-11

4172

本文简要介绍了device_map="auto"等使用方法，多数情况下与CUDA_VISIBLE_DEVICES=1,2,3一起使用，可以简单高效的进行多卡分布式推理及训练计算，至于多机多卡场景，多用torchrun和deepspeed等，后面文章会专门进行系统讲解。

【大模型】Transformers库单机多卡推理之device_map

酒酿小圆子呀～

07-17

682

Hugging Face的库支持自动模型（AutoModel）的模型实例化方法，来自动载入并使用GPT、ChatGLM等模型。在方法中的device_map参数，可实现单机多卡推理。

多张卡部署一个codellama实例

liuzhenghua66的博客

02-18

1790

在深度学习中，模型通常由多个层（或称为模块）组成，每个层执行特定的功能，并且它们以一种有序的方式连接在一起，构成了整个模型。不同类型的模型可能由不同种类的层组成，每个层都有其特定的功能和作用。：注意力层用于处理序列数据或序列-序列数据，能够动态地计算输入序列中各个位置的重要性，并将注意力权重应用于相应的位置。：输出层负责生成模型的最终输出，通常根据任务的不同，输出层可能采用不同的激活函数和损失函数。：全连接层通常位于神经网络的最后几层，用于将模型提取的特征映射到最终的输出空间。

【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术：KV Cache

禅与计算机程序设计艺术

05-26

2万+

KV Cache是Transformer推理性能优化的一项重要工程化技术，各大推理框架都已实现并将其进行了封装（例如 transformers库 generate 函数已经将其封装，用户不需要手动传入past_key_values）并默认开启（config.json文件中use_cache=True）。本文尝试打开封装分析该技术内部实现，希望对大家有所帮助，文中如有纰漏，欢迎指正。作者：Young。

Transformers多机多卡的炼丹实践

nghuyong的博客

01-28

3885

前言随着预训练语言模型的快速发展，很多问题可以通过堆数据和堆模型参数简单粗暴的有效解决。所以亲自训练一个大模型一定是每个NLPer都想尝试的事，这时候就需要进行多机多卡的分布式训练了。本文是一篇踩坑后的总结，介绍如何基于huggingface的transformers库来快速实现。注意：本文仅涉及数据并行，而不涉及模型并行。所以参考本文可以自己从零训练一个bert，bert-large等，但想训练...

单机多卡训练swin transformer

qq_41888086的博客

07-09

965

多卡训练swin transformer

transformers 训练

weixin_38241876的博客

11-19

514

from transformers import BertForSequenceClassification import torch model = BertForSequenceClassification.from_pretrained('bert-base-uncased', return_dict=True) model.train() from transformers import AdamW no_decay = ['bias', 'LayerNorm.weight'] optimizer.

Transformers量化模型加速推理 —— 以CodeLlama-34b-Instruct-hf为例

行步至春深

10-24

1140

推理速度接近量化前的两倍。占用最高显存约为量化前的四分之一。

基于 pytorch-transformers 实现的 BERT 中文文本分类代码

06-06

基于 pytorch-transformers 实现的 BERT 中文文本分类代码数据：从 THUCNews 中随机抽取20万条新闻标题，一共有10个类别：财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐，每类2万条标题数据。数据...

实战Transformers模型微调

最新发布

07-22

这些策略可以通过`datasets.map`方法应用到整个数据集上，该方法允许对数据集中的每个元素执行函数操作，从而实现高效的数据预处理。 #### 使用 Datasets.map 方法处理数据集 `datasets.map`是一种强大的数据处理...

transformers

05-11

Transformers 为数以千计的预训练模型奠定了基础（包括我们熟知的Bert、GPT、GPT-2、XLM等），支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨就是让最先进的 NLP 技术人人易用。...

Temporal Fusion Transformers 的Pytorch实现

02-19

FastFormers：实现Transformers在CPU上223倍的推理加速

11-10

FastFormers项目正是针对这一问题，通过一系列优化手段实现了在CPU上223倍的推理加速，甚至在GPU上也有显著提升。 FastFormers的核心优化策略主要包括知识蒸馏、结构化剪枝和模型量化。首先，知识蒸馏是一种模型...

只用两行代码，我让Transformer推理加速了10倍

算法码上来

07-23

723

最近有学妹问我，我训了一个Transformer模型，但是预测好慢啊，有啥解决方案吗？我心想，你又想好，又想快，咋不上天呢？于是我跟她说，你可以试试lightseq啊，跟闪电⚡️一样快，用了你就可以上天了。她一脸懵比，lightseq是啥玩意儿啊？咋就能让我的模型起飞 ️了呢？我跟她说，你不需要知道太多细节，你只需要知道它是一个Transformer系列模型推理加速库就行了。她还是一脸疑惑，那用...

小记一下在wenda上使用通义千问

geek2077的博客

08-12

695

前几天阿里发布了他们的开源大语言模型通义千问（qwen），而闻达作为一个LLM调用平台，就十分适合qwen。在闻达中运行int8量化后的qwen-7b-chat模型

通义千问-Qwen技术报告细节分享

2301_78285120的博客

10-02

1107

大模型现在已经不仅仅是卷开源了，也开始卷技术报告了~

transformers多卡训练

05-26

Transformers的多卡训练可以通过使用PyTorch的DataParallel或DistributedDataParallel模块来实现。其中，DataParallel是在单机多卡之间并行化模型训练，而DistributedDataParallel则是在多台机器之间并行化模型训练。下面是一个使用DataParallel模块进行多卡训练的示例代码： ``` import torch from torch.nn.parallel import DataParallel from transformers import BertForSequenceClassification, BertTokenizer # 加载模型和tokenizer model = BertForSequenceClassification.from_pretrained('bert-base-uncased') tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') # 数据并行化 device_ids = [0, 1, 2, 3] model = DataParallel(model, device_ids=device_ids) # 将模型移到GPU上 device = torch.device('cuda:0') model.to(device) # 训练循环 for epoch in range(num_epochs): for batch in dataloader: # 将数据移到GPU上 inputs = {k: v.to(device) for k, v in batch.items()} # 前向传播 outputs = model(**inputs) # 计算损失 loss = outputs.loss # 反向传播 loss.backward() # 更新参数 optimizer.step() optimizer.zero_grad() ``` 在以上代码中，我们首先加载了模型和tokenizer，然后使用DataParallel模块将模型并行化。接着，我们将模型移动到GPU上，并在训练循环中将数据也移到GPU上。最后，我们进行正常的前向传播、计算损失、反向传播和更新参数的操作。需要注意的是，在进行多卡训练时，batch size需要根据卡数进行调整，以充分利用多卡的计算资源。