代码优化加速
文章平均质量分 92
本专栏专门介绍C/C++代码的CUDA、SSE指令等优化加速知识
萌萌哒程序猴
一个纯粹的技术人~
展开
-
CUDA编程——常用存储器的分类与介绍
CUDA的存储器从物理上可分为两类:板载显存(On-board memory)片上内存(On-chip memory)其中板载显存主要包括全局内存(global memory)、本地内存(...原创 2021-11-09 14:54:45 · 1913 阅读 · 0 评论 -
CUDA加速——共享内存介绍及其应用
CUDA存储器的分类与介绍原创 2021-09-25 18:35:34 · 6429 阅读 · 3 评论 -
CUDA加速——基于规约思想的数组元素求和
基于CUDA的数组规约求和原创 2021-09-21 22:58:28 · 4074 阅读 · 4 评论 -
基于“FFD形变+梯度下降优化”图像配准的一种加速方法
一种基于FFD形变与梯度下降法的图像配准的加速方法原创 2021-08-28 21:08:45 · 1948 阅读 · 3 评论 -
非局部均值滤波(NL-means)算法的积分图加速原理与C++实现
在上一篇文章中,我们讲解了非局部均值滤波算法的原理,以及使用C++和Opencv来实现了该算法:非局部均值滤波(NL-means)算法的原理与C++实现我们知道,非局部均值滤波是非常耗时的...原创 2021-02-24 14:09:12 · 3157 阅读 · 3 评论 -
非局部均值滤波(NL-means)算法的CUDA优化加速
在上一篇文章中,我们讲了使用积分图来加速NL-means算法,虽然运算耗时减少了好多,还是没达到毫秒级。所以本文在积分图加速的基础上,进一步使用CUDA来并行加速,使得耗时减少到毫秒级。使...原创 2021-02-27 14:40:01 · 2311 阅读 · 2 评论 -
中值滤波原理及其C++实现与CUDA优化
对于数字图像的去噪,前边我们讲了均值滤波算法与高斯滤波算法,此外很常见的还有中值滤波算法,这些滤波算法都属于空间滤波,即对于每一个像素点,都选取其周围矩形区域中的像素点来计算滤波值。最近...原创 2021-01-05 21:41:32 · 2922 阅读 · 9 评论 -
积分图的一种CUDA并行运算
在前面的文章中,我们有讲积分图的基本原理、算法层面优化加速,以及SSE指令优化加速:https://blog.csdn.net/shandianfengfan/article/detai...原创 2021-01-30 17:51:36 · 1406 阅读 · 4 评论 -
CUDA纹理内存--硬件插值功能的应用
1. 纹理内存的使用方式纹理内存是CUDA的一种只读内存,通常的使用方式有两种:(1)把数据从host端拷贝到device端的CUDA数据,然后将CUDA数组绑定到纹理内存,通过访问纹...原创 2021-01-06 21:28:03 · 1853 阅读 · 7 评论 -
双三次插值算法的C++实现与SSE指令优化
在上篇文章中,我们讲解了常见的最邻近插值算法、双线性插值算法和双三次插值算法的原理与实现,三种插值算法中双三次插值算法的插值效果最好,但其也是三种算法中计算复杂度最高、耗时最长的算法。本...原创 2020-12-24 21:20:57 · 2197 阅读 · 10 评论 -
cuda三维纹理内存的使用
有时候需要使用cuda处理多帧的图像,需要把多帧时间序列的图像传入到显存中,这个时候就可以把保存图像的全局内存绑定到二维纹理内存,核函数通过纹理拾取来访问输入的图像数据。不过二维纹理内存的宽是有限制的:cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc();cudaMallocArray((cudaArray**)&arr_mat_x, &channelDesc, img_size, IIR_N_X);在以上定义二维cud原创 2020-08-24 21:39:29 · 1366 阅读 · 1 评论 -
数字图像处理之积分图计算优化
上一篇文章讲解了积分图的计算原理,并使用C++实现了基本的积分图算法。在WIN10 i5-7500 CPU的运行环境下,计算一帧1024*1024的图像,耗时7 ms左右。本文将在此基础...原创 2020-10-01 00:00:09 · 815 阅读 · 0 评论 -
C++分段函数的SSE指令优化
对于分段函数,当其输入参数x属于不同的范围区间时,其表达式是不一样的。按照通常的C++实现来说,如果要计算4个不同x的函数值,则需要分别判断这4个x所属于的范围区间,然后根据各自所属的范...原创 2020-10-18 22:39:41 · 878 阅读 · 0 评论 -
数字图像处理之高斯滤波加速优化
在上一篇文章中,我们讲了高斯滤波以及分离高斯滤波的原理与C++实现。本文将在此基础上,分别详细讲解使用SSE指令和CUDA来对分离高斯滤波算法的优化加速。一、SSE指令优化我们知道,SS...原创 2020-11-07 20:38:34 · 3741 阅读 · 16 评论