- 博客(7)
- 收藏
- 关注
转载 代码性能优化策略
一 应用级别 编译器选项 调用高性能库 去除全局变量 受限的指针 条件编译二 算法级别 缓冲优化(索引顺序,缓冲分块),提高多级缓冲的命中率,数据访问局部化 软件预取 查表法三 函数级别 函数调用参数 内联小函数(少于10行且无分支的函数)四 循环级别
2015-10-27 11:19:35 664
转载 OpenCV环境下CUDA编程示例
在CUDA平台上对图像算法进行并行加速是目前并行计算方面比较简单易行的一种方式,而同时利用OpenCV提供的一些库函数的话,那么事情将会变得更加easy。以下是我个人采用的一种模板,这个模板是从OpenCV里的算法CUDA源码挖掘出来的,我感觉这个用起来比较傲方便,所以经常采用。首先大牛们写的源码都很鲁棒,考虑的比较全面(如大部分算法将1,3,4通道的图像同时搞定),感觉还有一个比较神奇的地方在于
2015-10-24 10:49:17 2031 2
转载 Opencv + cuda 混编模式
利用OpenCV中提供接口,并结合Cuda API编程 利用OpenCV已经提供的部分接口,完成一些Cuda编程的基本处理,简化编程的复杂程度;只是根据自己业务需求,自定义内核函数或扩展OpenCV已提供的内核函数。这样既可以充分利用OpenCV的特性,又可以满足业务的不同需求,使用方便,且易于扩展。下面是简单的示例程序://swap_rb.cu#include using
2015-10-24 10:42:20 1514
原创 GPU优化思路
1 each SM support maximum 8 block2 each SM support maximum 1024? thread3 SM split block into warp(32)4 max shared memory 16K5 max register?6 IO / calulate 7 bank conflict8
2015-10-20 21:03:12 838
转载 arm-linux下qt + opencv开发环境的搭建(Altera DE1 Soc)
说明:博主为嵌入式小白,搭建并测试这个环境耗费多日,现将过程写出,以帮助更多的人!博主用的板子是Altera DE1 Soc,对于其他的ARM应该同样适用。百度云盘地址:http://pan.baidu.com/s/1dDAbeYd系统: ubuntu-14.04-desktop-i386ARM 系统: DE1_SoC_FB虚拟机工具: VM
2015-10-15 11:02:18 1687
转载 Jetson TK1
http://elinux.org/Jetson_TK11、硬件特性:1.10 规模:5" x 5"(127mm * 127mm)板1.11 Tegra TK1 SOC(CPU + GPU + ISP在单一芯片,功耗在1到5瓦之间):GPU:NVIDIA Kepler “GK20a” GPU 192 SM3.2 CUDA核(超过300 GFLOPS!)CPU:NVIDIA “4
2015-10-15 10:29:36 5508
转载 NVIDIA Jetson TK1开发板上手
Jetson TK1是NVIDIA基于Tegra K1开发的一块低成本开发板,板载一块Tegra K132-bit(Logan)芯片,开发板上还有一个HDMI输出,一个以太网口,一个USB 3.0,一个microUSB口,SATA,miniPCIe,SD卡插槽,调试口有串口DB9和JTAG,以及众多的IO接口引出。可以说是麻雀虽小,五脏俱全。TegraK1有一颗和桌面GPU同架构的Kepler
2015-10-15 10:25:40 1397
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人