自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

卜居

卜知未来，居安思危

卜居

CSDN认证博客专家 CSDN认证企业博客

码龄16年

60: 原创

1万+: 周排名

146万+: 总排名

116万+: 访问

: 等级

7812: 积分

4057: 粉丝

490: 获赞

664: 评论

680: 收藏

私信

关注

热门文章

分类专栏

最新评论

CUDA从入门到精通（二）：第一个CUDA程序
CPP_Frisk: 你好，我程序直接运行得到结果是：cudaSetDevice failed! Do you have a CUDA-capable GPU installed?addWithCuda failed! 用的是vs2022，cuda是12.3版本打开cmd输入nvcc --version得到的结果是 nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation Built on Fri_Sep__8_19:56:38_Pacific_Daylight_Time_2023 Cuda compilation tools, release 12.3, V12.3.52 Build cuda_12.3.r12.3/compiler.33281558_0 请问怎么解决
Altera OpenCL SDK与Xilinx SDAccel的使用对比
feifeiCheerUp: 您好，目前我也在学习OpenCL+FPGA。我在CPU+GPU上实现了一个OpenCL的小例子，主体上使用类c++写的，通过调用cl核函数来完成相应的功能。而我在FPGA上实现时（Xilinx的HLS），却只写了cl核函数，然后综合导出IP核之后，还要自己在SDK中写代码。对比起GPU麻烦了很多，请问还有其他类似GPU的在FPGA上开发的方法吗？谢谢！
CUDA从入门到精通（七）：流并行
KAY金: 老师您好，您说的这个流水线式处理，让我想到了计组，计组里流水线式处理是因为设备冲突所以无法实现真正的并行，流的运行是否也是类似的逻辑呢
CUDA从入门到精通（六）：块并行
weixin_41880803: 是不是每个block里面的线程不执行核函数，需要到块的结构上执行核函数呢？求大佬指点
CUDA从入门到精通（六）：块并行
weixin_41880803: 你好作者，感谢你的分享，获益匪浅。有个关于块并行的疑问想请教下呢，看到有个博主有如下代码，我摘抄主要内容哈： // 两个向量加法kernel，grid和block均为一维 __global__ void add(float* x, float * y, float* z, int n) { // 获取全局索引 int index = threadIdx.x + blockIdx.x * blockDim.x; // 步长 int stride = blockDim.x * gridDim.x; for (int i = index; i < n; i += stride) { z[i] = x[i] + y[i]; } } main函数主要代码，分配的显存这些省略了： int N = 1 << 20; // 初始化数据 for (int i = 0; i < N; ++i) { x[i] = 10.0; y[i] = 20.0; } // 定义kernel的执行配置 dim3 blockSize(256); dim3 gridSize((N + blockSize.x - 1) / blockSize.x); // 执行kernel add << < gridSize, blockSize >> >(d_x, d_y, d_z, N); 请问核函数里面为什么有for循环呢，是因为这个块大小大于1，是块并行，每个block里面的线程是串行的吗。

最新文章

深度学习硬件

关注

文章平均质量分 96

关注数：文章数：5 文章阅读量：114461 文章收藏量：189

作者: 卜居

爱好：玩游戏，发呆技能：CUDA，C/C++，Caffe/TensorFlow/PyTorch

展开