由于计算性能的要求,特别需要使用并行计算,这里对TBB和OpenCL都进行了一些测试。
测试了TBB和OpenCL之后,我的感觉是如果真的要做高性能的异构计算,那还是选择CUDA吧,并且应该选用专用计算的GPU。
首先先把自己简单的描述写在前面:
1.TBB(Thread Building Blocks)线程构建模块,是Intel公司开发的并行编程开发工具,我在vs2015上测试了TBB的效果,
测试平台vs2015 release x86 + tbb2018_20180312oss,然后测试的时候是两个数相加的运算,实际测试结果,release模式下的计算耗时还小些,我觉得是vs的优化能力实现的。但是实际上TBB确实调用了多个CPU剂型计算。
使用TBB并行计算时,CPU使用情况:
串行计算时,CPU的使用情况:
2.OpenCL,开始使用这个的时候,是因为这是一个现在在推行的异构计算标准,觉得它的计算能力,应该会有明显提升,然后也差强人意。主要的原因也还是手里没有一块像样的GPU,使用的作为显示的AMD GPU做的测试。
当然换用高性能的GPU时,使用OpenCL也是有性能提升的。
同样的计算,CPU耗时<10ms。
3.OpenCL的配置
TBB的配置:https://www.threadingbuildingblocks.org/,下载一个开发包即可,解压后添加路径即可。
OpenCL的配置,也是很简单,我这里使用的AMD的GPU,所以下载一个AMD APP SDK,在这里可以下载:http://hc.csdn.net/resources/classify?id=12
配置的方法:
(1)添加环境变量
(2)添加include目录
(3)添加lib目录
4.OpenCL测试代码
参考:https://blog.csdn.net/cloud_desktop/article/details/19107765
// amd_opencl_test.cpp : 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <iostream>
#include <time.h>
#ifdef MAC
#include <OpenCL/cl.h>
#else
#include <CL/cl.h>
#endif
char* oclLoadProgSource(const char* cFilename, const char* cPreamble, size_t* szFinalLength);
int main()
{
cl_int errNum;
/******** 第一部分 选择OpenCL平台,创建一个上下文 ********/
cl_uint numPlatforms;
cl_platform_id *platformIds;
cl_context context = 0;
// 1. Select an OpenCL platform to run on.
errNum = clGetPlatformIDs(0, NULL, &numPlatforms); // 1. 获取OpenCL平台数目
if (errNum != CL_SUCCESS || numPlatforms <= 0) {
perror("Failed to find any OpenCL platforms.");
exit(1);
}
printf("Platform Numbers: %d\n", numPlatforms);
platformIds = (cl_platform_id *)malloc(