![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DL
ShaderJoy
醉心于研究一些特效(用代码来画画),曾涉猎过图形图像视频处理 、计算机视觉 、增强现实/虚拟现实等技术领域,就职于美图。
展开
-
使用 CuDNN 进行卷积运算【读书笔记】
原文链接 http://www.goldsborough.me/cuda/ml/cudnn/c++/2017/10/01/14-37-23-convolutions_with_cudnn/ 以下为长截图,CSDN 限定了图片长度,请点击查看原图#include <cudnn.h>// http://www.goldsborough.me/cuda/ml/cudnn/...原创 2018-10-18 22:51:24 · 6549 阅读 · 6 评论 -
CUDA 远程性能分析【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-10-27 17:27:40 · 1028 阅读 · 0 评论 -
一个研究将 C 程序移植到 CUDA C 并优化的案例【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-11-01 13:48:03 · 1339 阅读 · 0 评论 -
CUDA 核函数调试:cuda-gdb,cuda printf, cuda assert 【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-11-01 17:01:55 · 2305 阅读 · 4 评论 -
CUDA 动态并行 【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-11-03 22:29:24 · 1718 阅读 · 0 评论 -
CUDA 矩阵转置的优化问题 【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图Patrition Camping:什么是 Patrition Camping原创 2018-11-05 20:17:00 · 1764 阅读 · 2 评论 -
CUDA C 最佳实践:应用程序性能分析【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图gprof:gprof 支持的选项:-b 不再输出统计图表中每个字段的详细描述。-q 只输出函数的调用图(Call graph的那部分信息)。-p 只输出函数的时间消耗列表。-e Name 不再输出函数Name 及其子函数的调用图(除非它们有未被限制的其它父函数)。可以给定多个 -e 标志。一个 -e...原创 2018-11-05 20:46:35 · 1167 阅读 · 0 评论 -
cublasSgemm函数的使用笔记
实际的运算为C^T=alpha*B^T*A^T+beta*C^T由于C^T的存储也是按列的,所以计算结果取出来刚好等于 C,可以省去转置的步骤。注:maxtrix_size.uiWB 表示,B^T 的行数、C^T的行数maxtrix_size.uiHA表示,A^T 的列数maxtrix_size.uiWA表示,B^T 的列数、A^T的行数相关函数和参数说明:...原创 2018-12-11 18:35:28 · 2348 阅读 · 0 评论 -
Why GEMM is at the heart of deep learning
转自 https://petewarden.com/2015/04/20/why-gemm-is-at-the-heart-of-deep-learning/转载 2018-12-11 19:10:03 · 1038 阅读 · 0 评论 -
RTX 2080、RTX 2080Ti 概览
转自——追光者的灵力 ROG RTX 2080 装机体验 每组 SM 都有一个 RT CORE 一共有 48 个 RT CORE原创 2018-10-30 12:36:12 · 1648 阅读 · 0 评论 -
CUDA 内存调试:memcheck,racecheck 【读书笔记】
Usage: cuda-memcheck [options] [your-program] [your-program-options]Options: --binary-patching <yes|no> [Default : yes] Control the binary patching of the device code....原创 2018-10-30 08:35:40 · 2822 阅读 · 0 评论 -
CUDA性能优化----kernel调优(nvprof工具的使用)
1、引言本文主要介绍并行分析,涉及掌握nvprof的几个metrics参数,所用的例子是CUDA性能优化----线程配置一文中所提到的sumMatrix2D.cu例子。接下来本文会做一些列的试验,测试环境:Tesla M2070一块,CUDA 6.0,操作系统:Red Hat 4.1.2-50,gcc version 4.1.2 20080704首先回顾一下sumMatrix2D的kern...转载 2018-10-29 17:01:19 · 5003 阅读 · 0 评论 -
cuDNN:用于深度学习的高效原语【读书笔记】
讲解了 cuDNN 实现的内部原理,以及和传统卷积进行了性能比较由于CSDN对图片高度的限制,请点击原图查看原创 2018-10-19 13:49:47 · 1708 阅读 · 0 评论 -
图解 FC 层和 CONV 层的 Forward 和 Backward 的区别【读书笔记】
原创 2018-10-17 15:44:15 · 6796 阅读 · 1 评论 -
NVIDIA 工具扩展(NVTX)【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图代码示例:/** Copyright 1993-2010 NVIDIA Corporation. All rights reserved.** NOTICE TO USER:** This source code is subject to NVIDIA ownership rights under U.S. and...原创 2018-10-28 12:05:22 · 6310 阅读 · 3 评论 -
CUDA C 最佳实践:优化主机和设备之间的内存传输【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-10-21 15:41:28 · 1390 阅读 · 0 评论 -
CUDA C 最佳实践:控制流【读书笔记】
由于 CSDN 的图片缩放机制,请点击原图查看原创 2018-10-25 22:15:26 · 1085 阅读 · 3 评论 -
CUDA C 最佳实践:执行配置优化【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-10-25 22:48:23 · 1112 阅读 · 1 评论 -
CUDA C 最佳实践:设备内存空间【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-10-25 23:37:31 · 1267 阅读 · 1 评论 -
CUDA C 最佳实践:计时和带宽【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-10-21 21:00:00 · 981 阅读 · 0 评论 -
CUDA C 最佳实践:指令优化【读书笔记】
以下为长截图,CSDN 限定了图片长度,请点击查看原图原创 2018-10-26 11:57:48 · 989 阅读 · 0 评论 -
分别使用 TensorRT 和 CUDA 加速 MTCNN
Github 现有的 TensorRT 加速的 MTCNN 【PKUZHOU/MTCNN_FaceDetection_TensorRT】不是基于插件的,而是走了使用 scale和 ReLU 、eltwise-sum 层 “曲线救国”的路线——PKUZHOU 认为 PReLU 会破坏 TensorRT 的 CBR 优化,但实际上实现 PReLU 插件以后耗时更少,如图左侧是“曲线救...原创 2019-02-13 20:15:39 · 7185 阅读 · 15 评论