CUDA学习笔记——cudaDeviceSynchronize()的理解

核桃果仁

已于 2022-07-27 20:11:23 修改

阅读量1w

点赞数 10

文章标签：学习

于 2022-07-27 20:10:25 首次发布

本文链接：https://blog.csdn.net/qq_44848792/article/details/126021954

版权

内核是操作系统提供软件对计算机硬件进行访问的软件

内核启动是异步的，这意味着在内核完成执行之前，他将在启动gpu进程后立即将控制权返回给cpu线程，而cpu线程的下一步是应用程序的退出，在应用程序退出时，其将输出发送到标准输出的功能由操作系统终止，因此内核以后生成的输出无处可去，将无法看到它。

因此，cudaDeviceSynchronize()在gpu完成之前交给cpu,cpu用内核去找到出口，将gpu进程的返回值进行保存。

hello.h

#pragma once
#define HELLO_GPU_API __declspec(dllexport)  //说明可以在其他工程中使用接下来的定义
#include "cufft.h"
#include "stdio.h"
#include "cuda_runtime.h"
#include "device_launch_parameters.h"


HELLO_GPU_API int useCUDA();

hello.cu

#include "hello.h"

__global__ void helloCUDA()
{
	printf("Hello gpu\n");
}

int useCUDA()
{
    helloCUDA << <1, 5 >> > ();
    cudaDeviceSynchronize();
    return 0;
}

main.cpp

#include <stdio.h>
#include <iostream>
#include "hello.h"

int main()
{
	useCUDA();
	return 0;
}

如果在把cuda程序生成动态库在主函数调用的情况下，不使用cudaDeviceSynchronize()，将无法将核函数里的打印输出到控制台。

若使用cudaDeviceSynchronize()，保证可以完成内核（内核的输出将找到一个等待的标准输出队列），在允许应用程序之前退出。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

核桃果仁

关注关注

10
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

cuda 编程

FREEDOM

02-21

1245

CUDA从入门到精通（零）：写在前面在老板的要求下，本博主从2012年上高性能计算课程开始接触CUDA编程，随后将该技术应用到了实际项目中，使处理程序加速超过1K，可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择。还有不到一年毕业，怕是毕业后这些技术也就随毕业而去，准备这个暑假开辟一个CUDA专栏，从入门到精通，步步为营，顺便分享设计的一些经验教训，希望能

CUDA常用函数

qq_33598781的博客

07-30

1366

cudaDeviceSynchronize、cudaDeviceReset

1 条评论您还未登录，请先登录后发表或查看评论

CudaDeviceSynchronize vs cudaThreadSynchronize vs cudaStreamSynchronize

最新发布

深之JohnChen的专栏

03-19

830

‌Host（主机）‌指 ‌CPU 及其关联的内存（Host Memory）‌，负责执行主程序逻辑和协调整体计算任务‌。负责初始化 CUDA 环境、分配设备内存及启动核函数（Kernel）‌。‌Device（设备）‌指 ‌GPU 及其关联的显存（Device Memory）‌，专为大规模并行计算设计‌。执行核函数（__global__修饰的函数），处理高密度数值运算‌。

cudaDeviceSynchronize并执行顺序工作

qq_41607336的博客

08-24

1856

cudaDeviceSynchronize

CUDA 同步函数

Bryan_Zhang的专栏

09-12

5739

这里主要区别三个同步函数：cudaStreamSynchronize、CudaDeviceSynchronize 和 cudaThreadSynchronize。在文档中，这三个函数叫做barriers，只有满足一定的条件后，才能通过barriers向后执行。三者的区别如下： cudaDeviceSynchronize()：该方法将停止CPU端线程的执行，直到GPU端完成之前CUDA的任务，包

cuda Synchronization

Claroja

01-09

353

cudaDeviceSynchronize() __syncthreads() 参考: https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#synchronization-programming-interface

cudaDeviceSynchronize的优化

maowenge的专栏

01-06

5212

#include #include #include #include using namespace std; __global__ void nullKernel() {} int main(void) { const int sum=1000000; cout cudaEvent_t start,stop; float time; c

CUDA C编程学习笔记

tmyttt2333的博客

01-06

1027

尽管可以使用多核和众核来区分CPU和GPU的架构，但这两种核心是完全不同的。 CPU核心比较重，用来处理非常复杂的控制逻辑，以优化串行程序执行。 GPU核心较轻，用于优化具有简单控制逻辑的数据并行任务，注重并行程序的吞吐量。。GPU不是一个独立运行的平台而是CPU的协处理器。因此，GPU必须通过PCIe总线与基于CPU的主机相连来进行操作， CUDA编程模型假设系统是由一个主机和一个设备组成的，而且各自拥有独立的内存。核函数是在设备上运行的。为使你拥有充分的控制权并使系统达到最佳性能，CUDA 运行

深入浅出之CUDA编程 Hello World

浩瀚之水的专栏

10-15

1047

值得注意的是，在cpp或h文件中调用cu或cuh中定义的函数，直接采用include的方式包含然后调用暂时是行不通的，可以采用extern的方式将cu或cuh中定义的CUDA函数设置为公共函数，然后在cpp或h中声明这个extern函数，最后在cpp或h文件中需要的地方调用即可。4、最后，打开项目的属性页，如下图所示，在“配置属性”——“链接器”——“输入”中的“附件依赖项”里面添加。：将C++代码和CUDA代码编译并链接在一起，生成可执行文件。下面是一个简单的例子，演示如何在C++中调用CUDA代码。

CUDA-MODE 第二课: PMPP 书的第1-3章

I good vegetable a!

08-13

875

我的课程笔记，欢迎关注：https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/cuda-mode。

CPU—GPU并行处理—CUDA编程从想入门到放弃

Old urchin的博客

03-08

5855

这几天收拾准备准备GUP“库达”计算，开学搞搞计算机图形图像处理。暂且不说安装问题了，简单的一批，而我在那里懵逼了好几天一直在看关于显卡CPU的基础概念（承认这几天有在肥宅快乐）。所以我温习一遍笔记打我一次。 CUDA编程 1. 1核函数定义：在GPU进行的函数通常称为核函数一般通过__global__修饰（在核函数里，都用双下划线来修饰），调用通过<<<参数1，参数2 &...

CUDA中的动态并行

专注于人工智能领域的小何尚

02-09

1960

是 CUDA 编程模型的扩展，使 CUDA 内核能够直接在 GPU 上创建新工作并与新工作同步。在程序中需要的任何位置动态创建并行性提供了令人兴奋的新功能。直接从 GPU 创建工作的能力可以减少在主机和设备之间传输执行控制和数据的需要，因为现在可以通过在设备上执行的线程在运行时做出启动配置决策。此外，可以在运行时在内核内内联生成依赖于数据的并行工作，动态利用 GPU 的硬件调度程序和负载平衡器，并根据数据驱动的决策或工作负载进行调整。

函数详解：cudaMemsetAsync()、cudaStreamSynchronize()和cudaMemcpyAsync()

不定时分享，互相学习，共同进步

11-02

6687

本文中，对cudaMemsetAsync()、cudaStreamSynchronize()和cudaMemcpyAsync()函数功能、参数进行了详细解读，并通过示例进行函数和结合使用进行了详细解读，有助于读者了解相应的异步内存操作。

CUDA的几种Synchronize

weixin_37804469的博客

12-23

6026

首先对这三个函数做一下解释： cudaDeviceSynchronize() 等待所有线程都处理完成（kernel function处理完成）用在cpu的c code中 cudaThreadSynchronize() 功能和cudaDeviceSynchronize()基本上一样，这个函数在新版本的cuda中已经被“废弃”了，不推荐使用，如果程序中真的需要做同步操作，推荐使用cudaDe...

torch.cuda.synchronize()

qq_45058745的博客

07-17

7020

在GPU执行计算时，通常是异步的，也就是说，计算任务被提交到GPU后，程序并不会等待GPU完成计算，而是立即返回控制权给CPU，继续执行后面的代码。这种异步的计算方式可以提高程序的效率，但也会带来一些问题，比如在GPU计算尚未完成时，CPU就开始访问GPU的计算结果，此时可能会得到错误的结果。函数会在需要获取GPU计算结果的时候被使用，比如在训练深度神经网络时，需要在每个epoch结束后计算验证集的误差，此时就需要使用这个函数来同步CPU和GPU之间的计算，以确保得到正确的结果。

CUDA-同步

武泗海的博客

01-07

1706

主机与设备之间的同步，分为隐式和显式。一.隐式：cudaMemcpy函数的作用在于传输传输，但在执行结束之前会产生阻塞。许多与内存相关的操作都会产生阻塞，这些不必要的阻塞会对性能产生较大的影响。如：锁页主机内存分配，设备内存分配，设备内存初始化，同一设备间的内存复制，一级缓存和共享存储配置的修改等等。二.显式：下面三种函数均可实现主机与设备间的同步。 cudaDeviceSynchron

CUDA之同步函数详解

Bruce_0712的博客

07-05

4366

cuda没有全局线程同步的函数,__syncthreads()只用于block内线程的同步,调用cudaThreadSynchronize()函数,会使cpu处于等待状态,等待所有的线程都执行完毕.但是是,cudaThreadSynchronize()函数并不能在kernel中使用。

torch.cuda.synchronize()同步统计pytorch调用cuda运行时间

胡乱学点东西

07-01

1万+

这是因为CUDA kernel函数是异步的，所以不能直接在CUDA函数两端加上time.time()测试时间，这样测出来的只是调用CUDA api的时间，不包括GPU端运行的时间。我们需要要加上线程同步函数，等待kernel中所有线程全部执行完毕再执行CPU端后续指令。上面代码我们将同步指令加在了python端，用的是torch.cuda.synchronize函数。其中第一次同步是为了防止前面的代码中有未同步还在GPU端运行的指令，第二次同步就是为了等result = model(input)所有线程

CUDA学习笔记（四）——CUDA性能

05-19

CUDA是一个可以大大提高GPU计算性能的编程平台，但是为了...这些方法并不是完整列表，但是它们可以帮助您更好地理解CUDA性能优化的基本原理和最佳实践。在实践中，您可能需要使用多个技术和优化技巧，以达到最佳性能。