cuda 入门--向量相加

最新推荐文章于 2023-12-25 12:05:17 发布

pineapple-coder

最新推荐文章于 2023-12-25 12:05:17 发布

阅读量762

点赞数 1

本文链接：https://blog.csdn.net/qq_39790992/article/details/90048443

版权

文件名为main.cu#include<stdio.h>#include<iostream>// 两个向量加法kernel，grid和block均为一维__global__ void add(float* x, float * y, float* z, int n){ // 获取全局索引 int index = threadIdx.x + b...

摘要由CSDN通过智能技术生成

文件名为main.cu

#include<stdio.h>
#include<iostream>
// 两个向量加法kernel，grid和block均为一维
__global__ void add(float* x, float * y, float* z, int n)
{
    // 获取全局索引
    int index = threadIdx.x + blockIdx.x * blockDim.x;
    // 步长
    int stride = blockDim.x * gridDim.x;
    for (int i = index; i < n; i += stride)
    {
        z[i] = x[i] + y[i];
        
    }
}
int main()
{
    int N = 1 << 10;
    int nBytes = N * sizeof(float);
    // 申请host内存
    float *x, *y, *z;
    x = (float*)malloc(nBytes);
    y = (float*)malloc(nBytes);
    z = (float*)malloc(nBytes);

    // 初始化数据
    for (int i = 0; i < N; ++i)
    {
        x[i] = 10.0;
        y[i] = 20.0;
    }

    // 申请device内存
    float *d_x, *d_y, *d_z;
    cudaMalloc((void**)&d_x, nBytes);
    cudaMalloc((void**)&d_y, nBytes);
    cudaMalloc((void**)&d_z, nBytes);

    // 将host数据拷贝到device
    cuda

最低0.47元/天解锁文章

pineapple-coder

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
cuda 入门--向量相加

文件名为main.cu#include<stdio.h>#include<iostream>// 两个向量加法kernel，grid和block均为一维__global__ void add(float* x, float * y, float* z, int n){ // 获取全局索引 int index = threadIdx.x + b...
复制链接

扫一扫