模型部署
文章平均质量分 59
关注深度学习的各个方向内容
捣蛋老爷
走过绝望之谷,迎来顿悟之坡。
展开
-
CUDA笔记2
需要注意,条件语句不总是会导致发散,当我申请blocksize为64时会分配2个warp(此处能优化计算速度)CudaDeviceSynchronize (会阻塞CPU,直到所有先前的CUDA调用都完成为止)cudaMemcpyAsync()这个不会调用,用在stream中,pipeline。CudaMemcpy()调用之前会调用CudaDeviceSynchronize。同一个block里执行的数据尽量要靠近。grid对应kernal函数。内存中线性分布,一行行的串联。对kernal函数而言。原创 2023-07-12 21:45:08 · 276 阅读 · 0 评论 -
在windows/Linux中使用cmake(编写CMakeLists.txt) 和 vscode
1.防止用默认的vs编译器。原创 2023-07-07 10:40:21 · 440 阅读 · 0 评论 -
CUDA笔记1(线程模型/内存模型)
1 .尽量warp内的线程访问的内存是连续的2.尽量少的使用分支(if、switch),造成部分线程inactive影响性能3.block的大小设置应当是warp_size的整数倍4.block不宜太小,一般为256、5125.尽量使用sharedmemory做缓存,避免频繁的与globalmemory交互6.pinnedmemory应该是内存复制到device的媒介,避免gpu中直接访问7.善用constantmemory,对于常量性质的数据,可以利用并加速。原创 2023-07-07 10:39:26 · 110 阅读 · 0 评论 -
TensorRT模型推理笔记 一
修改item.CopyFrom(newitem) #修改删除。原创 2023-07-07 10:38:36 · 238 阅读 · 1 评论