GPU
我为什么这么菜.
这个作者很懒,什么都没留下…
展开
-
CUDA基本优化方法
一、基于线程的优化方法1.选取合适的gridDim和blockDimblockDim最好为32的整数倍:因为执行指令的基本单位为线程束,线程束内的所有线程统一执行广播下来的命令,而线程束的线程数量基本为32。当block被分到SM中去,其会被划分为多个线程束,若blockDim!=线程束内线程数整数倍,则会造成线程的浪费。2.减少存在分支的if因为线程束中的所有线程执行同一条的指令,若出现存在出现分支的if,即线程束内的部分线程符合if条件,部分符合else条件,因cuda编译不具备分支预测能力,则原创 2021-06-24 15:24:43 · 3278 阅读 · 0 评论 -
tmux
tmux new -s cqy0112tmux actrl +b d关闭原创 2021-01-12 23:59:25 · 109 阅读 · 0 评论 -
darknet make时出现nvcc: not found
darknet make时出现nvcc: not found是因为找不到cuda路径,需要打开makefile,将NVCC=nvcc修改为:NVCC=/usr/local/cuda-xx.x/bin/nvcc,即可解决问题原创 2020-12-03 17:34:55 · 658 阅读 · 0 评论 -
jetson tensorrt codeblocks配置
原创 2020-11-28 17:00:11 · 153 阅读 · 0 评论 -
TensorRT C++ 序列化serialize / 反序列化deserialize
序列化Engine// serialize the engine, then close everything downconst std::string engine_file{ "tensorrt_mnist.trt" };nvinfer1::IHostMemory* gieModelStream = mEngine->serialize(); // GIE modelfprintf(stdout, "allocate memory size: %d bytes\n", gieModelS原创 2020-11-19 23:24:16 · 2450 阅读 · 5 评论 -
Tensor RT C++ 使用流程
Tensor RT C++ 使用总体流程提供包含权重和网络结构的文件,如.onnx,相当于构建生产流水线所需的参数图纸Creating a TensorRT network definition from your model盖一个工厂(builder),放置生产流水线(engine)用来生产,流水线是加速网络,原料是输入,生产出结果Invoking the TensorRT builder to create an optimized runtime engine from the networ原创 2020-11-18 17:28:07 · 1571 阅读 · 1 评论 -
Tensor RT官方安装手册
https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-zipTensor RT官方安装手册原创 2020-09-25 17:12:49 · 207 阅读 · 0 评论 -
nvidia算力查询表
原创 2020-07-11 16:38:07 · 1651 阅读 · 0 评论