Hetcompute Array Processing Example(2)

一、抽象
1)在Tutorial中,介绍了基于HetCompute编程模型下,实现CPU、GPU、DSP分别对数组进行运算,以及协同工作对数组信息进行处理。

二、实现过程
在这里插入图片描述 此处为main函数的命令行参数实现部分。通过这几个参数实现了对数组规模、循环次数和实现方法的自定义。实现方法有CPU、GPU、DSP协同工作模式和独立工作模式。
在这里插入图片描述此处定义的为独立工作模式,通过 Hetcompute SDK提供的API申请的bufferr,然后通过自定义函数调用其相对应的数组处理。
在这里插入图片描述此处为协同工作模式的定义,将原是数组分割成三份,并对其进行处理。通过多线程CPU、GPU、DSP同时运行,并最终返回它们各自所消耗的时间,与上面的输出进行对比。传参部分传入线程的参数为未分割前数组的大小。
在这里插入图片描述以上为GPU的处理部分,对数组元素进行了自加和自乘运算,t->wait_for()可以理解为自旋锁,只有当launch完成时,才继续进行下一步,利用这个机制实现了对工作总时间的计算。通过create_gpu_kernel将计算部分加入函数中,最终通过lauch传参实现。此机制广泛的应用于任务调度之中,可以有效地保证任务执行过程的安全。
DSP部分实现相对比较复杂,需要将实现函数封装在dsp.h中,然后再通过python脚本将其生成.so文件,放入手机/ventor/下,在此处再通过HetCompute SDK提供的任务机制将其加载,最终实现对数组进行处理。它的实现过程中调用的是头文件所dsp.h包含的一个函数,也就是上面提到的已经被加载进入手机端.so库中内容。
在这里插入图片描述 此处执行的为并行任务,对临界资源的保护使用到了acquire_wi()和 release(),类似于锁的机制,专门应对HetCompute下所申请的缓冲区,对分割后的数组进行初始化。接下来通过锁的机制来调用上面实现的函数来对数组进行操作。上面线程操作中都是用到了这些函数。
CPU、DSP部分与此处实现类似,对临界资源的保护此处提供的机制相当完善。最后通过返回值的&&运算保证了所有线程执行完成,并最终打印出各个部分所消耗的时间。

三、实验结果分析

在这里插入图片描述 此处为独立完成时各部分所消耗的时间,可以看到CPU和GPU所需时间并不是很多,而DSP消耗了相对大量的时间,对资源来说比较浪费。
在这里插入图片描述此处为协同工作下各部分所消耗的时间,CPU和GPU的差别不是很大,DSP部分则整整节约了近一半的时间,这在大型工程中可以说是节约了相当大量的资源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值