自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 参加CUDA线上训练营·(三)cuda的线程层次

CUDA中的线程组织为三个层次Grid、Block、Thread。

2023-02-15 22:35:35 164

原创 参加CUDA线上训练营·(二)cuda的c++编译

xmake官网。该编译器安装方便,上手快,支持c++,cuda,Qt,iOS等语言和项目的编译,我在进行简单的模块开发时喜欢用xmake快速生成项目以进行测试。xmake使用较为简单,可以满足常规的使用要求,但该编译器毕竟不如cmake这么流行,在社区和使用的广度上仍然存在一些问题,因此个人建议仅用于小型的算法验证,至于大型项目还是考虑cmake。

2023-02-15 21:47:58 202

转载 参加CUDA线上训练营·(一)硬件架构

在之前的SM概览图以及上图里,可以注意到SM内有两个Warp Scheduler和两个Dispatch Unit. 这意味着,同一时刻,会并发运行两个warp,每个warp会被分发到一个Cuda Core Group(16个CUDA Core), 或者16个load/store单元,或者4个SFU上去真正执行,且每次分发只执行 一条 指令,而Warp Scheduler维护了多个(比如几十个)的Warp状态(可能有多个cuda程序并行执行,这时由warp scheduler负责切换)。

2023-02-15 16:09:54 189

原创 参加CUDA线上训练营·综述

1.作为点云相关的算法工程师,我发现许多算法(如体素滤波)本身很简单,但由于需要处理的点云数量非常庞大,使用CPU进行计算会消耗大量的时间。与之相比,拥有成百上千个CUDA核心的GPU非常适合处理这种步骤简单但数据庞大的计算。2.在我所从事的自动驾驶领域,算法通常需要在规定的时间内(一般为100毫秒)完成一轮计算。近年来,各大厂商增加了激光雷达线束数量,从早期的32线增加至128线甚至更高,数量也从一个主要雷达变成一主+多补盲,数据量的暴涨导致处理器的计算压力进一步增加。

2023-02-12 21:35:00 190 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除