模型部署
文章平均质量分 73
mingshili
从事CV,智能驾驶相关行业;对AI非常感兴趣;对于pytorch非常熟练,自己从无到有搭建过物体检测,语义分割等模型工程(FasterRCNN,YOLO,SSD,Unet,DeepLab,SqueezeSeg等);目前主要专注于激光点云语义分割相关领域
展开
-
[CUDA] cuda程序编译注意事项
cuda的一些编译问题的记录原创 2024-11-11 22:45:00 · 300 阅读 · 0 评论 -
[CUDA] cuda kernel开发记录
包括kernel的一些使用注意事项, launch_bound, __device__, debug排查技巧原创 2024-11-11 20:45:00 · 448 阅读 · 0 评论 -
[CUDA] 设置sync模式cudaSetDeviceFlags
可以设置cuda Stream synchorinze时是释放cpu资源还是把持cpu资源;根据官方说明默认当gpu 个数大于cpu的时候,因为cpu紧张所以会yield时间片;cuda的 synchronize等待模式分为: Yield方式, busy waiting方式(spin), blocking方式。- gpu context切换更加频繁了,应该是block阻塞导致的。- block恢复存在延迟,导致一些空白gpu时间,如下图红色框。采用blocking模式后,nsight观察的现象有几个。原创 2024-11-07 20:01:19 · 852 阅读 · 0 评论 -
[CUDA] 将已有的地址空间设置为pinned memory
使用cudaHostRegister将已有的地址空间设置为pinned memory。原创 2024-11-07 19:50:05 · 358 阅读 · 0 评论 -
[CUDA] 判断一个指针是GPU还是CPU
如何判断地址是device的还是host的?原创 2024-11-07 19:42:39 · 311 阅读 · 0 评论 -
[CUDA] launch_bounds的使用记录
记录cuda kernel中使用的launch bound的作用和使用方式原创 2024-11-07 19:37:30 · 425 阅读 · 0 评论 -
[python] 如何debug python脚本中C++后端的core dump
记录debug python和C++混合编程时的一些技巧原创 2024-11-06 15:47:33 · 504 阅读 · 0 评论 -
[CUDA] ptx使用笔记
介绍cuda的底层编程语言ptx的一些使用笔记原创 2024-11-04 20:31:52 · 1128 阅读 · 0 评论 -
[系统优化] 系统调度策略调整笔记
讲解主要的linux系统常用的一些调度策略,用于优化复杂应用中的线程调度,对整体性能有很大影响,需要综合考虑原创 2024-11-01 20:18:49 · 508 阅读 · 0 评论 -
[CUDA] stream使用笔记
一些cudaMemcpyAsync, 不一定是异步的,比如当host和device之间传输数据的时候,虽然使用异步copy,但是会内含同步,从而导致一些block或spin行为。原创 2024-11-01 16:18:54 · 296 阅读 · 0 评论 -
[CUDA] kernel归约注意事项
本文记录了一下cuda kernel在进行归约时,需要注意idx > size对后续代码的阻断问题原创 2024-11-01 15:53:09 · 142 阅读 · 0 评论 -
[CUDA] atomic函数闭坑技巧
记录cuda kernel中使用atomicfunc时的一些注意事项原创 2024-11-01 15:40:43 · 355 阅读 · 0 评论 -
[CUDA编程] cuda graph优化心得
【代码】[CUDA编程] cuda graph优化心得。原创 2024-06-12 11:36:01 · 1209 阅读 · 0 评论 -
[pytorch] libtorch-C++的实现
libtorch是pytorch的C++版本,可以将pytorch的代码尤其自定义算子,通过libtorch迅速实现为C++版本的自定义算子,从而快速的实现模型部署的验证工作;原创 2022-11-06 23:11:08 · 1489 阅读 · 0 评论 -
[pytorch] torch.onnx.export 使用及自定义层构建
构建pytorch转onnx的自定义层原创 2022-07-14 14:02:34 · 1567 阅读 · 0 评论
分享