cuda初始化代码

最新推荐文章于 2024-08-31 13:09:03 发布

Ring__Rain

最新推荐文章于 2024-08-31 13:09:03 发布

阅读量593

点赞数

分类专栏： cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30263737/article/details/81178639

版权

cuda 专栏收录该内容

42 篇文章 27 订阅

订阅专栏

#include <stdio.h>
#include <cuda_runtime.h>

bool CUDA_initial(void)
{
int i;
int device_count;
if( cudaGetDeviceCount(&device_count) )
{
  printf(" There is zero device beyond 1.0/n");
  return false;
}
else
  printf("There is %d device beyond 1.0/n",device_count);
for(i=0;i<device_count;i++)
{
  struct cudaDeviceProp device_prop;
  if(cudaGetDeviceProperties(&device_prop,i)==cudaSuccess)
  {
   printf("device properties is :/n"
      "/t device name is %s/n"
      "/t totalGlobalMem is %d/n"
      "/t sharedMemPerBlock is %d/n"
      "/t regsPerBlock is %d/n"
      "/t warpSize is %d/n"
      "/t memPitch is %d/n"
      "/t maxThreadsPerBlock is %d/n"
      "/t maxThreadsDim [3] is %d X %d X %d/n"
      "/t maxGridSize [3] is %d X %d X %d/n"
      "/t totalConstMem is %d/n"
      "/t device version is major %d ,minor %d/n"
      "/t clockRate is %d/n"
      "/t textureAlignment is %d/n"
      "/t deviceOverlap is %d/n"
      "/t multiProcessorCount is %d/n",
      device_prop.name,
      device_prop.totalGlobalMem,
      device_prop.sharedMemPerBlock,
      device_prop.regsPerBlock,
      device_prop.warpSize,
      device_prop.memPitch,
      device_prop.maxThreadsPerBlock,
      device_prop.maxThreadsDim[0],device_prop.maxThreadsDim[1],device_prop.maxThreadsDim[2],
      device_prop.maxGridSize[0],device_prop.maxGridSize[1],device_prop.maxGridSize[2],
      device_prop.totalConstMem,
      device_prop.major,device_prop.minor,
      device_prop.clockRate,
      device_prop.textureAlignment,
      device_prop.deviceOverlap,
      device_prop.multiProcessorCount);
   break;
  }
}

if(i==device_count)
{
  printf("Get the propertites of device occurred error/n");
  return false;
}

if(cudaSetDevice(i)==cudaErrorInvalidDevice)
{
printf("Set Device occurred error/n");
return false;
}

return true;
}

int main()
{
if(CUDA_initial()==true)
printf("CUDA initial successed!/n");
return 0;
}

其中遇到的一些函数解释：

1.1.1 cudaGetDeviceCount

名称

cudaGetDeviceCount – 返回具有计算能力的设备的数量

概要

cudaError_t cudaGetDeviceCount( int* count )

说明

以*count形式返回可用于执行的计算能力大于等于1.0的设备数量。如果不存在此类设备，cudaGetDeviceCount ()将返回1，且设备0仅支持设备模拟模式。由于此设备能够模拟所有硬件特性，因此该设备将报告9999种主要和次要计算能力。

返回值

相关返回值：

cudaSuccess

注意，如果之前是异步启动，该函数可能返回错误码。

1.1.2 cudaSetDevice

名称

cudaSetDevice – 设置设备以供GPU执行使用

概要

cudaError_t cudaSetDevice(int dev)

说明

将dev记录为活动主线程将执行设备码的设备。

返回值

相关返回值：

cudaSuccess

cudaErrorInvalidDevice

注意，如果之前是异步启动，该函数可能返回错误码。

1.1.3 cudaGetDevice

名称

cudaGetDevice – 返回当前使用的设备

概要

cudaError_t cudaGetDevice(int *dev)

说明

以*dev形式返回活动主线程执行设备码的设备。

返回值

相关返回值

cudaSuccess

注意，如果之前是异步启动，该函数可能返回错误码。

1.1.4 cudaGetDeviceProperties

名称

cudaGetDeviceProperties – 返回关于计算设备的信息

概要

cudaError_t cudaGetDeviceProperties( struct cudaDeviceProp* prop，int dev )

说明

以*prop形式返回设备dev的属性。cudaDeviceProp结构定义如下：

struct cudaDeviceProp {
char name [256];

size_t totalGlobalMem;
size_t sharedMemPerBlock;
int regsPerBlock;

int warpSize;

size_t memPitch;

int maxThreadsPerBlock;
int maxThreadsDim [3];
int maxGridSize [3];
size_t totalConstMem;
int major;

int minor;

int clockRate;

size_t textureAlignment;
int deviceOverlap;
int multiProcessorCount;

}

其中：

name

用于标识设备的ASCII字符串；

totalGlobalMem

设备上可用的全局存储器的总量，以字节为单位；

sharedMemPerBlock

线程块可以使用的共享存储器的最大值，以字节为单位；多处理器上的所有线程块可以同时共享这些存储器；

regsPerBlock

线程块可以使用的32位寄存器的最大值；多处理器上的所有线程块可以同时共享这些寄存器；

warpSize

按线程计算的warp块大小；
memPitch

允许通过cudaMallocPitch()为包含存储器区域的存储器复制函数分配的最大间距（pitch），以字节为单位；

maxThreadsPerBlock

每个块中的最大线程数：

maxThreadsDim[3]

块各个维度的最大值：

maxGridSize[3]

网格各个维度的最大值；

totalConstMem

设备上可用的不变存储器总量，以字节为单位；
major，minor

定义设备计算能力的主要修订号和次要修订号；
clockRate

以千赫为单位的时钟频率；

textureAlignment

对齐要求；与textureAlignment字节对齐的纹理基址无需对纹理取样应用偏移；

deviceOverlap

如果设备可在主机和设备之间并发复制存储器，同时又能执行内核，则此值为 1；否则此值为 0；

multiProcessorCount

设备上多处理器的数量。

返回值

相关返回值：

cudaSuccess

cudaErrorInvalidDevice

注意，如果之前是异步启动，该函数可能返回错误码。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Ring__Rain CSDN认证博客专家 CSDN认证企业博客

码龄9年

319: 原创

2万+: 周排名

79万+: 总排名

89万+: 访问

: 等级

9390: 积分

572: 粉丝

595: 获赞

212: 评论

3529: 收藏

私信

关注

热门文章

分类专栏

ubantu 15篇
pytorch 35篇
分割 1篇
pcl 6篇
笔记 2篇
slam 5篇
C++ 72篇
机器学习 11篇
Opencv 80篇
视觉算法 116篇
cuda 42篇
自然语言处理 2篇
计算机科学 25篇
caffe 1篇
python 31篇
深度学习 50篇
FPGA 1篇
tensorflow 4篇
无人驾驶 1篇
mura 6篇
人生 8篇
keras 3篇
光学 4篇

最新评论

PASCAL VOC2012数据集的下载及简单讲解
黛笔成花: 还是要去官网下载数据集，这个数据集有问题
PASCAL VOC2012数据集的下载及简单讲解
黛笔成花: 这个数据集解压的时候出现错误0x00008888FFFF是什么原因呢？
Pytorch版deeplabv3+环境配置训练自己的数据集
nxdxwj666: 博主，你好，请问一下，你文章开头给的数据集的类别是多少
我的CUDA学习之旅1——大图像分块处理程序（包括求均值，最大值等）
我是一个对称矩阵: 请问为什么建立int sum[5000]; //求和结果数组 int max[5000]; //最大值结果数组 int min[5000]; //最小值结果数组，这样5000的数组呢
Pytorch版deeplabv3+环境配置训练自己的数据集
pcycccccc: 很奇怪，我训练过程没有报错，训练过程中评价指标看着也还好，但是测试的时候，发现分割有些乱（物体轮廓是出来了，但是还有一些其他不必要的分割），不知道是不是模型训练的epoch不够，我原先训练了100轮有人能否回答一下，可能是什么原因造成的呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。