CUDA优化LBP(loopy belief propegation)

最新推荐文章于 2022-09-22 10:17:08 发布

Wendell_0

最新推荐文章于 2022-09-22 10:17:08 发布

阅读量629

点赞数

分类专栏： CUDA编程 CUDA基础文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wendell_0/article/details/108222539

版权

CUDA基础同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

0 篇文章 0 订阅

订阅专栏

CUDA优化LBP

大致思路
- msg样式
CUDA编程注意事项
性能分析

大致思路

通过阅读开源的代码，我发现现在cuda优化lbp的算法基本都是将每一个节点组装成一个类实例，当需要进行计算msg，或者传播的时候，通过kernel函数调用成员函数（__device__）对该节点的数据进行所要求的操作。至于每个节点的数据成员，如果该lbp算法的label和msg比较简单，直接使用基本数据类型即可。
反之，则要慎重考虑。这里提供一个思路：可以将所有节点的同一种数据，提前计算size，在kernel函数外统一分配空间,然后使用cudaMemcpy从内存传输到显存。然后每个节点要维护相应的指针，指向各自数据的起始位置。

msg样式

在论文¹中msg格式如下：
还不太会写latex,先空着吧，还是下发个截图吧。

在这里插入图片描述

CUDA编程注意事项

基本上不管是__device__还是__kernel___，其中的cuda语法与C基本上一致，是的，和C一致，所以不要去尝试使用什么vector，或者opencv的mat。
另外，gpu喜欢简单，你让一个小小的线程去运行一段五六十行，带判断、带跳转、带开方乘方的代码，属实是耍流氓的行为。（虽然我就是这么干的）
下一篇我会对代码进行讲解，更细致的内容会到那时候再说。

性能分析

这次开发原本是要用在项目中的，但是速度无法满足要求，所以就只能拿来发blog的。我认为速度不能达标不是我的锅，因为该论文中的msg计算方式相当复杂，其中的es项计算量逼近8亿了。

Garcia R R , Zakhor A . Consistent Stereo-Assisted Absolute Phase Unwrapping Methods for Structured Light Systems[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(5):411-424. ↩︎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。