Hetcompute Array Processing Example(2)

最新推荐文章于 2022-09-22 10:43:20 发布

weixin_38498942

最新推荐文章于 2022-09-22 10:43:20 发布

阅读量169

点赞数

分类专栏： Snapdragon异构计算

本文链接：https://blog.csdn.net/weixin_38498942/article/details/98747638

版权

Snapdragon异构计算专栏收录该内容

52 篇文章 7 订阅

订阅专栏

一、抽象
１）在Tutorial中，介绍了基于HetCompute编程模型下，实现CPU、GPU、DSP分别对数组进行运算，以及协同工作对数组信息进行处理。

二、实现过程
在这里插入图片描述此处为main函数的命令行参数实现部分。通过这几个参数实现了对数组规模、循环次数和实现方法的自定义。实现方法有CPU、GPU、DSP协同工作模式和独立工作模式。
此处定义的为独立工作模式，通过 Hetcompute SDK提供的API申请的bufferr，然后通过自定义函数调用其相对应的数组处理。
在这里插入图片描述此处为协同工作模式的定义，将原是数组分割成三份，并对其进行处理。通过多线程CPU、GPU、DSP同时运行，并最终返回它们各自所消耗的时间，与上面的输出进行对比。传参部分传入线程的参数为未分割前数组的大小。
在这里插入图片描述以上为GPU的处理部分，对数组元素进行了自加和自乘运算，t->wait_for()可以理解为自旋锁，只有当launch完成时，才继续进行下一步，利用这个机制实现了对工作总时间的计算。通过create_gpu_kernel将计算部分加入函数中，最终通过lauch传参实现。此机制广泛的应用于任务调度之中，可以有效地保证任务执行过程的安全。
DSP部分实现相对比较复杂，需要将实现函数封装在dsp.h中，然后再通过python脚本将其生成.so文件，放入手机/ventor/下，在此处再通过HetCompute SDK提供的任务机制将其加载，最终实现对数组进行处理。它的实现过程中调用的是头文件所dsp.h包含的一个函数，也就是上面提到的已经被加载进入手机端.so库中内容。
在这里插入图片描述此处执行的为并行任务，对临界资源的保护使用到了acquire_wi()和 release()，类似于锁的机制，专门应对HetCompute下所申请的缓冲区，对分割后的数组进行初始化。接下来通过锁的机制来调用上面实现的函数来对数组进行操作。上面线程操作中都是用到了这些函数。
CPU、DSP部分与此处实现类似，对临界资源的保护此处提供的机制相当完善。最后通过返回值的&&运算保证了所有线程执行完成，并最终打印出各个部分所消耗的时间。

三、实验结果分析

在这里插入图片描述此处为独立完成时各部分所消耗的时间，可以看到CPU和GPU所需时间并不是很多，而DSP消耗了相对大量的时间，对资源来说比较浪费。
此处为协同工作下各部分所消耗的时间，CPU和GPU的差别不是很大，DSP部分则整整节约了近一半的时间，这在大型工程中可以说是节约了相当大量的资源。

weixin_38498942

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hetcompute Array Processing Example(2)

一、抽象１）在Tutorial中，介绍了基于HetCompute编程模型下，实现CPU、GPU、DSP分别对数组进行运算，以及协同工作对数组信息进行处理。二、实现过程此处为main函数的命令行参数实现部分。通过这几个参数实现了对数组规模、循环次数和实现方法的自定义。实现方法有CPU、GPU、DSP协同工作模式和独立工作模式。此处定义的为独立工作模式，通过 Hetcompute ...
复制链接

扫一扫