关于CUFFT

我们知道,程序在首次执行调用GPU函数时,会有一个初始化的过程。该初始化过程有很大的开销,不应被计入实际执行时间。然而我们发现,在调用CUFFT库的时候,第一次生成plan handle 也会有很大的开销:


void main()
{
	int n = 100;
	float2 *data_h = new float2[n];
	for (int i=0; i<n; ++i)
	{
		data_h[i].x = i;
		data_h[i].y = 0;
	}
	float2 *data_d;
	cudaMalloc((void**)&data_d, n * sizeof(float2));
	cudaMemcpy(data_d, data_h, n * sizeof(float2), cudaMemcpyHostToDevice);

	static StopWatchInterface *timer;
	sdkCreateTimer(&timer);

	sdkStartTimer(&timer);

	cufftHandle plan1;
	cufftPlan1d(&plan1, n, CUFFT_C2C, 1);

	sdkStopTimer(&timer);
	cout<<"Create plan1: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

	sdkResetTimer(&timer);
	sdkStartTimer(&timer);

	cufftExecC2C(plan1, data_d, data_d, CUFFT_FORWARD);
	cufftDestroy(plan1);

	sdkStopTimer(&timer);
	cout<<"Execute plan1: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

	sdkResetTimer(&timer);
	sdkStartTimer(&timer);

	cufftHandle plan2;
	cufftPlan1d(&plan2, n, CUFFT_C2C, 1);

	sdkStopTimer(&timer);
	cout<<"Create plan2: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

	sdkResetTimer(&timer);
	sdkStartTimer(&timer);

	cufftExecC2C(plan2, data_d, data_d, CUFFT_INVERSE);
	cufftDestroy(plan2);

	sdkStopTimer(&timer);
	cout<<"Execute plan2: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

}

运行结果:

Create plan1: 228.562ms
Execute plan1: 0.27255ms
Create plan2: 0.328378ms
Execute plan2: 0.275842ms

可以看到,第一次调用 cufftPlan1d 函数时,耗时高达228毫秒,远远超过执行第二次调用 cufftPlan1d 函数以及执行FFT的时间。因此,大家在测试 CUFFT 运行时间时,应该注意吧首次生成 Plan 的函数排除在外,或者在此之前执行一个额外的 Plan 调用。


  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值