基于cuda的简单加法和基于cuda的矩阵相加算法实现,以及对应的cpu实现对比
一、基于cuda的简单加法
#include <iostream>
#include "sys/time.h"
//int N=10;
//__global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N])
//{
// int i = blockIdx.x * blockDim.x + threadIdx.x;
// int j = blockIdx.y * blockDim.y + threadIdx.y;
// if (i < N && j < N)
// C[i][j] &