CUDA优化LBP
大致思路
通过阅读开源的代码,我发现现在cuda优化lbp的算法基本都是将每一个节点组装成一个类实例,当需要进行计算msg,或者传播的时候,通过kernel函数调用成员函数(__device__
)对该节点的数据进行所要求的操作。至于每个节点的数据成员,如果该lbp算法的label和msg比较简单,直接使用基本数据类型即可。
反之,则要慎重考虑。这里提供一个思路:可以将所有节点的同一种数据,提前计算size,在kernel函数外统一分配空间,然后使用cudaMemcpy
从内存传输到显存。然后每个节点要维护相应的指针,指向各自数据的起始位置。
msg样式
在论文1中msg格式如下:
还不太会写latex,先空着吧,还是下发个截图吧。
CUDA编程注意事项
基本上不管是__device__
还是__kernel___
,其中的cuda语法与C基本上一致,是的,和C一致,所以不要去尝试使用什么vector
,或者opencv的mat
。
另外,gpu喜欢简单,你让一个小小的线程去运行一段五六十行,带判断、带跳转、带开方乘方的代码,属实是耍流氓的行为。(虽然我就是这么干的)
下一篇我会对代码进行讲解,更细致的内容会到那时候再说。
性能分析
这次开发原本是要用在项目中的,但是速度无法满足要求,所以就只能拿来发blog的。我认为速度不能达标不是我的锅,因为该论文中的msg计算方式相当复杂,其中的es项计算量逼近8亿了。
Garcia R R , Zakhor A . Consistent Stereo-Assisted Absolute Phase Unwrapping Methods for Structured Light Systems[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(5):411-424. ↩︎