cltracer,可以获取每个opencl执行命令的执行时间。
另外,找一下intel以及别的平台,可以找到对应的调试工具和方法。
--------------如下,是直接在代码中加入log和打印时间的方法-----------------------------
1.*.cl文件编写语法错误
编写cl文件的时候总有粗心的时候,可能写错了有语法错误。
在cl::program build之后做判断
if (!isSuccess)
{
std::string logs;
program.getBuildInfo(devices_[0], CL_PROGRAM_BUILD_LOG, &logs);
std::cout << "" << logs << std::endl;
}
2.测试运算时间
使用 cl::event 对象 获取四个时间值,通常用来调试优化时,某一次kernel的运行时间调优,要的就是速度
//开始执行该命令的时间
cl_ulong start = oneEvent.getProfilingInfo<CL_PROFILING_COMMAND_START>();
//结束执行该命令的时间
cl_ulong end = oneEvent.getProfilingInfo<CL_PROFILING_COMMAND_END>();
//设置队列的时间
cl_ulong queue = oneEvent.getProfilingInfo<CL_PROFILING_COMMAND_QUEUED>();
//把命令提交到设备端(GPU)的时间
cl_ulong submit = oneEvent.getProfilingInfo<CL_PROFILING_COMMAND_SUBMIT>();
废话不多说,直接上代码具体步骤:
1.在创建cl::CommandQueue时,需要把第三个参数设为:CL_QUEUE_PROFILING_ENABLE
queue_ = cl::CommandQueue(context_, clDevice_, CL_QUEUE_PROFILING_ENABL, &err);
2.发起运行kernel时,把event链接上
oclManager->getQueue().enqueueNDRangeKernel(
testKernel,
cl::NullRange,
cl::NDRange(16), // 数据维度参数
cl::NDRange(8),
NULL,
&testevet
);
3.等待所有运算任务结束:
queue.finish();// 对应C语言API clFinish(queue);
4.获取时间值:
cl_ulong nseconds(0);
cl_ulong start = oneEvent.getProfilingInfo<CL_PROFILING_COMMAND_START>();
cl_ulong end = oneEvent.getProfilingInfo<CL_PROFILING_COMMAND_END>();
nseconds += end - start;
std::cout << "运算时间(ms):" << nseconds *1e-6 << std::endl;