GPU程序cuda设置

picked stone

已于 2023-07-13 21:13:13 修改

阅读量429

点赞数

文章标签： python

于 2023-06-30 14:37:14 首次发布

本文链接：https://blog.csdn.net/nk1610099/article/details/131476326

版权

程序中cuda的设置

默认会用 Cuda 0，有时候容易拥堵

device = "cuda:0" if torch.cuda.is_available() else "cpu"
print('device = ', device)
model = net().to(device)

修改方法

一般使用.cuda()或者.to(device)，注意device的名字不能直接用数字

而是用torch.device(‘cuda:1’)表示

device = torch.device("cuda:0")
device1 = torch.device("cuda:1") 
for batch_idx, (img, label) in enumerate(train_loader):
 img=img.to(device1)
 label=label.to(device1)

实例化网络

model = Net()
model.to(device) #使用序号为0的GPU
# 或model.to(device1) #使用序号为1的GPU

把tensor改成numpy

measurements, channels, sigma_2 = load_CEdataset(measurement_path, channel_path)
measurements = measurements.to(device)
channels = channels.to(device)
sigma_2 = sigma_2.to(device)

measurements = measurements[0:500,:]
measurements = measurements.cpu().numpy()
channels = channels[0:500,:]
channels = channels.cpu().numpy()
sigma_2 = sigma_2[0:500,:]
sigma_2 = sigma_2.cpu().numpy()

多GPU

假设有4个GPU,其id设置如下

device_ids =[0,1,2,3]
#对数据
input_data=input_data.to(device=device_ids[0])
#对于模型
net = torch.nn.DataParallel(model)
net.to(device)

此时利用某一些gpu来存放数据（分配来做一些事），DataParallel会自动让所有gpu进行参与

优惠劵

picked stone

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GPU程序cuda设置

假设你的环境名字叫: “name”
复制链接

扫一扫

NVIDIA的GPU加速CUDA的示例程序

05-03

NVIDIA的GPU加速CUDA的示例程序，NVIDIA的GPU加速CUDA的示例程序，NVIDIA的GPU加速CUDA的示例程序

CUDA并行程序设计 GPU编程指南

05-02

CUDA并行程序设计：GPU编程指南共分为12章。第1章超级计算简史第2章使用GPU理解并行计算第3章 CUDA硬件概述第4章 CUDA环境搭建第5章线程网格、线程块以及线程第6章 CUDA内存处理第7章 CUDA实践之道第8章多CPU和多GPU解决方案第9章应用程序性能优化第10章函数库和SDK 第11章规划GPU硬件系统第12章常见问题、原因及解决方案

参与评论您还未登录，请先登录后发表或查看评论

CUDA并行程序设计 GPU编程指南 + CUDA专家手册

01-03

1、CUDA并行程序设计 GPU编程指南.pdf 2、CUDA专家手册++GPU编程权威指南.pdf

配置CUDA-GPU（CUDA11.6+Torch1.12.1）

一位正在苦苦追求毕业的研究僧

10-24

2702

如何配置CUDA-GPU（CUDA11.6+Torch1.12.1）

【win10 cuda pytorch】从无到有配置gpu运算pytorch的极度详细完整方法教程（包括各种坑），网上其他方法基本可行性不高

qq_44345567的博客

03-16

2996

今天弄了整整半天的gpu+pytorch的配置，看了无数的教程，踩了无数的坑，终于自己摸索出一套cuda/gpu+pytorch的方法，绝对有效！真正从零搭建！解决所有下载网速慢，找不到包等的一切不爽的问题！！废话不表，直接上教程！（括号里会列出一些遇到的坑，可跳过）一、安装软件：第一步，首先安装cuda的cudatoolkit（当然你现在有anaconda也没关系，但是要注意一点...

PyTorch-GPU的安装及常见的注意事项(默认CUDA，CUDnn已安装)

齐鲁工业大学云灵未来人工智能协会

09-12

590

请注意，该教程适用于已按照「齐鲁工业大学」

matlab gpu程序效率,如何利用GPU（CUDA）加速Matlab程序？

weixin_40008870的博客

03-16

2065

在Matlab中调用GPU的CUDA API进行并行加速，主要有两种途径：1)对现有Matlab代码的简单改写，调用Matlab中支持CUDA的函数进行加速。2)将C语言的CUDA函数封装成库，在Matlab中进行调用。前者简单方便，效率低；后者效率高，稍微麻烦。一、matlab中直接的gpu加速计算matlab中直接做GPU计算分为三个步骤。(1)数据的初始化使用gpuArray()则可生成gp...

理清GPU、CUDA、CUDA Toolkit、cuDNN关系以及下载安装

热门推荐

旺仔馒头

11-08

6万+

GPU 显卡是我们平时说的GPU，现在大多数的电脑使用NVIDIA公司生产的显卡；常见的型号有Tesla V100，GTX950M，GTX1050TI，GTX1080等。 CUDA Driver 这个是我们常说的显卡驱动，NVIDIA的显卡驱动程序。 CUDA 是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构，是一种并行计算平台和编程模型，该架构使GPU能够解决复杂的计算问题。CUDA英文全称是Compute Unified Device Architecture。

CUDA多卡调用

左右-HPU

11-07

1059

CUDA由单卡调用改为多卡调用的代码变化

os.environ[‘CUDA_VISIBLE_DEVICES‘]指定GPU无法生效解决方案

weixin_44229976的博客

12-12

5127

解决方法：将语句放在 import torch 之前 os.environ['CUDA_VISIBLE_DEVICES'] = args.gpu_devices import torch

No CUDA GPUs are available

weixin_42504788的博客

12-09

1490

No CUDA GPUs are available

配置TensorFlow的cuda环境教程

qq_24997277的博客

09-15

1万+

一、硬件要求官网链接： https://developer.nvidia.com/cuda-gpus 选则自己显卡类型对应的NVIDIA系列，可以得到显卡的计算能力（compute capability）注意标注Notebook的为笔记本电脑二、软件要求 1. 了解tensorflow各个版本需要的CUDA版本以及Cudnn的对应关系注意记下自己需要的tensorflow版本、CUDA版本、Cudnn版本 https://www.tensorflow.org/install/source#co

cuda_device的血泪教训

YasmineC的博客

03-03

3145

之前声明cuda设备的方式都是首先os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7', 代表能看到所有设备，然后再通过device = 'cuda:6'+model = model.to(device), 放到其中某个设备上。今天要跑一个新模型，仍然选择这种方式，但是非常神奇，我生命了'cuda:6'，但是模型偏偏就是会跑到'cuda:0'和'cuda:6'上于是换了种方式，os.environ['CUDA_VISIBLE_DEVICES'] =

如何mysql数据导入到mongdb

codemami的博客

05-30

1182

由于MySQL和MongoDB的数据模型不同（例如，MySQL使用关系模型，而MongoDB使用文档模型），你可能需要转换数据的格式。使用MongoDB驱动程序：你也可以使用MongoDB的官方驱动程序（如Python的pymongo）来编写脚本，将数据直接插入到MongoDB中。注意：如果你的JSON文件包含多个文档，并且它们不是作为数组的一部分（即每个文档都在其自己的行上），则需要使用--jsonArray选项。手动转换：对于小型数据集，你可以手动编辑SQL或CSV文件，将其转换为JSON格式。

基于NANO 9K 开发板加载PICORV32软核，并建立交叉编译环境

最新发布

pocean2012的博客

05-30

1056

ISP的实现逻辑是出厂“芯片”（我们这里是软核）自带了BootLoader程序，即出厂引导程序，通过BootLoader可以将程序从串口（上位机）下载到Flash中，实际的时序是通过RST来区分正常启动还是烧录状态，然后上位机的烧录脚本来控制串口时序，用户程序实际上是通过串口最终下载到了FLASH中，然后程序从flash启动。NANO 9K低成本体验FPGA开发，还是挺香的，官方例子有加载PICORV32软核的例子，可以建立简单的ISP编程环境，通过串口就可以加载程序，很方便。

Pandas03

Bianca427的博客

05-27

1558

聚合计算时新增一列计算最大值与平均值的差值df.groupby('district').agg(最低工资=('salary', 'min'), 最高工资=('salary', 'max'), 平均工资=('salary', 'mean'), 最大值与均值差值=('salary', myfunc)).rename_axis(["行政区"])

深入理解Python中None和““的区别

m0_54701273的博客

05-27

990

在Python的世界里，None和空字符串""经常被用作默认值或用于表示缺省值的情况。尽管它们在某些语境下似乎可互换，但实际上None和""在Python中有着根本的区别。

yolov8 ultralytics库实现多机多卡DDP训练

weixin_42357472的博客

05-27

633

用的https://universe.roboflow.com/deneme-yz/sigara-deneme/dataset/2 数据集进行训练的。

生命在于学习——Python人工智能原理（2.1）

易水哲的博客

05-27

1612

机器学习是指从有限的观测数据中学习出具有一般性的规律。

cuda单gpu压力测试程序

02-29

CUDA是一种并行计算平台和编程模型，用于利用GPU进行高性能计算。在CUDA中，可以使用CUDA C/C++编程语言来编写并行程序。压力测试程序是用来测试GPU性能和稳定性的程序，可以通过对GPU进行大量计算任务的并行处理来评估其性能。以下是一个简单的CUDA单GPU压力测试程序的示例： ```cpp #include <stdio.h> // CUDA核函数，每个线程计算一个加法操作 __global__ void addKernel(int *a, int *b, int *c, int n) { int tid = blockIdx.x * blockDim.x + threadIdx.x; if (tid < n) { c[tid] = a[tid] + b[tid]; } } int main() { int n = 1000000; // 数组大小 int *a, *b, *c; // 输入和输出数组 int *d_a, *d_b, *d_c; // 在GPU上分配的输入和输出数组 // 在主机上分配内存 a = (int*)malloc(n * sizeof(int)); b = (int*)malloc(n * sizeof(int)); c = (int*)malloc(n * sizeof(int)); // 在GPU上分配内存 cudaMalloc(&d_a, n * sizeof(int)); cudaMalloc(&d_b, n * sizeof(int)); cudaMalloc(&d_c, n * sizeof(int)); // 初始化输入数组 for (int i = 0; i < n; i++) { a[i] = i; b[i] = i; } // 将输入数组从主机内存复制到GPU内存 cudaMemcpy(d_a, a, n * sizeof(int), cudaMemcpyHostToDevice); cudaMemcpy(d_b, b, n * sizeof(int), cudaMemcpyHostToDevice); // 启动CUDA核函数，每个线程计算一个加法操作 int blockSize = 256; int numBlocks = (n + blockSize - 1) / blockSize; addKernel<<<numBlocks, blockSize>>>(d_a, d_b, d_c, n); // 将输出数组从GPU内存复制到主机内存 cudaMemcpy(c, d_c, n * sizeof(int), cudaMemcpyDeviceToHost); // 验证结果 for (int i = 0; i < n; i++) { if (c[i] != a[i] + b[i]) { printf("Error: incorrect result\n"); break; } } // 释放GPU上的内存 cudaFree(d_a); cudaFree(d_b); cudaFree(d_c); // 释放主机上的内存 free(a); free(b); free(c); return 0; } ``` 这个示例程序使用CUDA C/C++编写，实现了一个简单的向量加法操作。它首先在主机上分配输入和输出数组的内存，然后在GPU上分配相应的内存。接下来，它将输入数组从主机内存复制到GPU内存，并启动CUDA核函数来进行并行计算。最后，它将输出数组从GPU内存复制回主机内存，并验证结果的正确性。最后，释放GPU和主机上的内存。这个示例程序只是一个简单的压力测试程序，你可以根据自己的需求进行修改和扩展。例如，可以增加更复杂的计算任务，调整数组大小和线程块大小等。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交