[菜鸟每天来段CUDA_C]GPU上实现任意长度的矢量求和

最新推荐文章于 2021-05-07 16:35:34 发布

jonny_super

最新推荐文章于 2021-05-07 16:35:34 发布

阅读量1.5k

点赞数

分类专栏： CUDA编程文章标签： cuda 任意长度矢量求和

本文链接：https://blog.csdn.net/jonny_super/article/details/16856311

版权

CUDA编程专栏收录该内容

18 篇文章 4 订阅

订阅专栏

由于GPU硬件的限制，核函数kernel<<<B,T>>>中B的数量限制为不超过65535；同样对于启动核函数中每个线程块中的线程数

量，T不能超过设备属性结构(cuDeviceProp)中maxThreadsPerBlock的值，对于目前的GPU，该限制值是每个线程块512个线程。即

当矢量的长度超过65536*128时，核函数的调用会失败，而目前的GPU对处理这种量级的运算时很常见的。

当矢量求和计算量大于B*T时，可以在每个线程中加一个B*T的偏移，相当于每个线程完成N/(B*T)个向量的加法。

比如要计算33*1024个向量的加法，核函数调用为

      add<<<128, 128>>>(a, b, c)

128*128个线程不能完成33*1024个向量的加法，核函数需要写成如下形式：

__global__ void add(int* a, int* b, int* c)
{
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    while(tid < N)
    {
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * GridDim.x;
    }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jonny_super

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

上海菜鸟驿站POI_excel_POI_上海_菜鸟驿站_

10-02

标题中的“上海菜鸟驿站POI_excel_POI_上海_菜鸟驿站_”暗示了这是一个关于上海地区的菜鸟驿站位置信息的数据集，主要以Excel表格（POI是Point of Interest的缩写，通常指地理位置信息）的形式存储。描述进一步确认...

CUDA编程基础

ECNU_sei_mfj的博客

07-09

587

GPU任意长度矢量求和跨网格循环:数据集大小比网格grid中线程数量多一维网格和线程块假设网格和线程块均为一维组织结构，在跨网格循环中，每个线程将在网格内使用 threadIdx + blockIdx*blockDim 计算自身唯一的索引，并对数组内该索引的元素执行相应运算，然后将网格中的线程总数添加到索引并重复此操作，直至超出数组范围。核函数代码 __global__ void add(int *a, int *b, int *c) { int index = threadIdx.x

参与评论您还未登录，请先登录后发表或查看评论

基于GPU的矢量求和运算

hscoder的博客

01-04

1207

#include <iostream> #include <cuda_runtime_api.h>const int N = 10 ;__global__ void add(int *a , int *b , int *c) { int tid = blockIdx.x ;//计算该索引处的数据 if (tid < N) { c[tid] = a[ti

基于GPU的矢量求和

言午日月

05-07

244

#include <iomanip> #include <iostream> #include <stdio.h> #include <cuda_runtime.h> #include <device_launch_parameters.h> using namespace std; //检测GPU bool CheckCUDA(void){ int count = 0; int i = 0; cudaGetD

【CUDA并行编程之三】Cuda矢量求和运算

懂幸福，爱生活

12-12

3635

本文将通过矢量求和运算来说明基本的Cuda并行编程的基本概念。所谓矢量求和运算，就是两个数组数据中对应的元素两两相加，并将结果保存在第三个数组中。如下图所示： 1.基于CPU的矢量求和：代码非常简单： #include using namespace std; const int N =10; void add( int *a ,int *b , int *c) {

CUDA（Ⅲ）：矢量求和运算

每天进步一点点！

04-26

3481

问题描述：将两组数据对应的元素两两相加，并将结果保存在第三个数组中。即矢量求和运算目录 1.基于CPU的矢量求和代码分析：问题：索引取值范为0 到 N-1 ，下面两种函数add()有什么区别吗？完整的代码实现及运行结果： 2.基于GPU的矢量求和代码分析：问题：<<<>>>里面参数式什么含义？问题：既然GPU将运行kernel的N...

Ubuntu常用命令菜鸟入门.rar_Ubuntu!_ubuntu_ubuntu 入门_命令_菜鸟

09-23

ubuntu常用的编程命令,适合ubuntu入门的菜鸟查阅

C语言开发实现的菜鸟驿站管理系统.zip

07-04

针对快递管理的实际需求，采用C语言作为开发语言，使用文件.txt作为数据库，设计并且开发了一个菜鸟驿站管理系统。系统主要包括用户功能模块和管理员功能模块。用户功能模块包括用户注册、用户快递查询、用户快递...

SQL Server 2000菜鸟进阶.rar_sql_sql 2000_sql server_sql server 2000_

09-22

《SQL Server 2000菜鸟进阶》是一份针对初学者的教程资源，旨在帮助对数据库管理系统感兴趣的读者快速掌握SQL Server 2000的基本概念、安装与配置、数据管理以及查询操作。SQL Server 2000是微软公司推出的企业级...

java菜鸟教程_JAVA菜鸟教程_

09-28

【Java菜鸟教程】是针对初学者精心编写的教程，旨在帮助新手快速掌握Java编程语言的基础知识。本教程全面覆盖了Java的核心概念和技术，是学习Java编程的理想起点。首先，Java是一种面向对象的编程语言，由Sun ...

基于CUDA和C++的矢量加法

12-01

基于CUDA和C++实现矢量相加，代码文件用记事本能打开，用C++也能打开（安装CUDA环境），在控制台上可以输出结果

gpu对任意长度的矢量求和

weixin_30266885的博客

12-20

129

blockDim.x*gridDim.x 跳过一个grid int <<<参数1，参数2>>>（int *a,int * b,int * c); 如果是一维的，参数1表示一个grid里面有多少个block块，参数2表示一个block块里面有多少个thread线程 namespace caffe { template <t...

CUDA求任意长度向量和debug实录

星辰大海的博客

03-28

216

症状：点击运行，程序一直跑，却没有输出问题代码： #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <stdio.h> #define N 256 //向量长度，自行设置 #define BLOCK 128//线程块数目，可根据硬件限制随意设置 #define BLOCKDIM 128 //线程块内线程数目，可根据硬件限制随意设置 __global__ void addKernel

CUDA学习笔记（2）对任意矢量长度求和

forest小拳拳

09-27

416

使用128个线程块和128个线程来完成此项操作。值得注意的是，在编译过程中，发现这个库一出现就会导致error MSB3721出现。虽然之前了解到MSB3721往往是由于有些引用到的库出问题，但是这个基本的库难道都没法用吗？但是也只能放弃用cout输出，而改用printf，结果成功。 #include "cuda_runtime.h" #include "device_launch_pa

CUDA: GPU高性能运算

热门推荐

Augusdi的专栏

10-11

1万+

0 序言 CUDA是异构编程的一个大头，洋洋洒洒的看了些资料，但是，感觉这个技术没有像C++或者Java那样有自己的权威的《编程思想》来指导系统学习，总是感觉心里不踏实，是不是自己还没掌握深入、或者说心里没底气说自己已经入门了、已经熟悉了、已经精通了。站在一个初学者的角度，作为一个笔记式的记录，讲解自己学习和理解CUDA过程中的一些列想到的、碰到的问题。享受一个东西不一定是结果，可以是从无知到了解

CUDA实战1-任意长度矢量求和运算两种方法

星辰大海的博客

03-28

921

方法一：矢量每一维度的相加都开一个单独线程 #include "cuda_runtime.h" #include "device_launch_parameters.h" #define N 256 //矢量长度，自行修改 #define BLOCKDIM 128 //线程块内线程数，可自行修改为不超过硬件限制的数 __global__ void addKernel(int *c, const int *a, const int *b) { //获得向量维度 int i = bloc

CUDA系列（一）——矢量求和

怡宝2号

05-26

951

文章目录代码疑问代码疑问向量的数量N未转换到GPU上，而是在主机端进行全局定义的，那在设备端进行if (index < N)的判断，为何能访问主机端的变量 ...

C++ 动态申请列数行数不确定的变长二维数组(主要是行数不确定)

努力努力...

12-05

9021

主要是看与动态申请二维数组的区别动态申请行数列数确定的二维数组；行数列数确定 int n=k1,m=3; //n行 m列 int **scan_point; //动态申请二维数组 scan_point=new int*[n]; for(int i=0;i<n;i++) scan_point[i]=new int[m];

CUDA2.3-原理之任意长度的矢量求和与用事件来测量性能

weixin_34331102的博客

03-04

108

__global__ void add( int *a, int *b, int *c) { <span style="white-space:pre"> </span> int tid = threadIdx.x + blockIdx.x *blockDim.x; <span style="white-space:pre"> </span&g...

jetson nano的CUDA_ARCH_BIN应该设置多少