cuda并行程序设计
文章平均质量分 86
Elylicery
这个作者很懒,什么都没留下…
展开
-
Opencv4+cuda 加速开发教程笔记
写在前面:2020年12月-2021年5月搞了一阵,发现老师期望过高,却没有明确指导方向,纯是自己瞎碰壁,搞不明白,改行了,学前端了,现在是2022年1月,今年毕业就入职文章目录1 配置环境2 CUDA配置与测试3 第一个程序4 GpuMat对象操作:算术与位运算5 图像直方图&图像几何操作6 卷积操作 - 加速盒子模糊与高斯模糊7 卷积操作-图像梯度与边缘提取8 高斯双边加速,实时视频美颜9 二值形态学操作10 实时的颜色对象跟踪11 CUDA特征 - 角点检测12 实时视频背景分析13 实时.原创 2022-01-05 11:11:22 · 5914 阅读 · 3 评论 -
CUDA程序基本优化
有效的数据并行算法 + 针对GPU架构特性的优化 = 最优性能1.Parallel Reduction 并行规约这个过程类似篮球锦标赛的淘汰过程:n个元素进行log(n)个回合,如何在CUDA上实现?//累加存在shared memory内的元素__shared__ float partialSum[element_num]; unsigned int t = thread...原创 2020-04-08 10:45:54 · 674 阅读 · 0 评论 -
使用cuda C完成矩阵相乘算法详解
矩阵相乘大家应该都不陌生。设有两个矩阵M和N,假设M和N都是方阵,维度均为width × width如果M和N均为1000 × 1000的矩阵,总共要进行1000000次点乘。其中,每次点乘有1000次乘法和1000次加法。Matirx Multiply:CPU实现先来看看使用普通的c代码在CPU端如何实现void MatrixMulOnHost(float* M,float* N,...原创 2020-03-26 14:10:41 · 5247 阅读 · 10 评论