概述
做了几个月的gpu的性能优化,一直没来得及总结,先把大概要点总结一下,后面有空进行进一步完善。
开发环境
tesla v100 + cuda 9.0 + linux C
优化点
1. 数据格式
数据格式要进行设计,把每个部分精简至最小,减少对gpu显存的占用,同时缩小数据的比对时间。
2. 内存拷贝
从内存load到缓存,减少load的时间消耗,可采用mmap。
3. 显存拷贝
host缓存到device显存之间的拷贝很慢,减少拷贝次数和数据大小。
4. 多线程优化
采用多线程能让host端的处理程序并行,减少部分处理开销。
5. gpu异步处理API
异步处理,不多说。
6. gpu流并行
使数据拷贝时间和数据处理时间部分重叠,从而实现对处理时间的“隐藏”。
7. gpu处理逻辑优化
多使用寄存器变量,gpu处理时使用的数据不要存在交叉,线程个数是SM的整数倍。