CUDA中的cudaMemcpy2D和cudaMallocPitch使用详解

#include <stdio.h>  
#include <stdlib.h>  
#include <cuda_runtime.h> 
#define N 3 //类似数组的行
#define M 5 //类似数组的列
#define GridSize 16
#define BlockSize 16
#include<iostream>
using namespace std;

__global__ void kernel(float * d_matrix, size_t pitch) {
    int count = 1;
    for (int j = blockIdx.y * blockDim.y + threadIdx.y; j < N; j += blockDim.y * gridDim.y)
    {
        float* row_d_matrix = (float*)((char*)d_matrix + j*pitch);
        for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < M; i += blockDim.x * gridDim.x)
        {
            row_d_matrix[i] = count;
            count++;
        }
    }
}

int main()
{
    float *d_matrix;
    float *dc_matrix = new float[M*N];
    //dc_matrix = (float*)malloc(sizeof(float)*M*N);
    size_t pitch;
    cudaMallocPitch(&d_matrix, &pitch, M*sizeof(float), N);
    for (int i = 0; i < M*N; i++)
        dc_matrix[i] = i;
    for (int i = 0; i < M*N; i++)
        printf("%.2f ", dc_matrix[i]);
    printf("\n");
    cudaMemcpy2D(d_matrix, pitch, dc_matrix, M* sizeof(float), M * sizeof(float), N, cudaMemcpyHostToDevice);

    kernel << <GridSize, BlockSize >> >(d_matrix, pitch);
    cudaMemcpy2D(dc_matrix, M * sizeof(float), d_matrix, pitch, M * sizeof(float), N, cudaMemcpyDeviceToHost);
    for (int i = 0; i < M*N; i++)
        printf("%.2f ", dc_matrix[i]);

    cudaFree(d_matrix);
    free(dc_matrix);
    return 0;
}
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值