amp.h关于出现如下问题解决办法
amp.h第2616和3462行代码:
_Value_type& operator() (const index<_Rank>& _Index) const __GPU
{
void * _Ptr = _Access(_Read_write_access, _Index);//第2626和3462行代码
return *reinterpret_cast<_Value_type*>(_Ptr);
}
修改后:
_Value_type& operator() (const index<_Rank>& _Index) const __GPU
{
void * _Ptr = this->_Access(_Read_write_access, _Index);//加个this->都修改
return *reinterpret_cast<_Value_type*>(_Ptr);
}
基于C++的AMP并行计算和cpu计算测试代码:
#include <amp.h>
#include <iostream>
#include <vector>
using namespace Concurrency;
#define test 3.14159265358;
const int n_size = 10000000;//循环次数
using namespace std;
//GPU计算
void GPU_Computing(vector<double> vec)
{
clock_t startTime, endTime;
startTime = clock(); //计时开始
vector<double> resultVec;
resultVec.resize(n_size);
array_view<const double, 1> array1(n_size, vec);
array_view<const double, 1> array2(n_size, vec);
array_view<double, 1> result(n_size, resultVec);
//GPU计算部分
parallel_for_each(result.extent, [=](index<1> idx) restrict(amp)
{
result[idx] = array1[idx] * array1[idx] * array2[idx] / array2[idx];
});
endTime = clock(); //计时开始
cout << "GPU Use Time:" << (double)(endTime - startTime) / CLOCKS_PER_SEC << "s" << endl;
}
//CPU计算
void CPU_Computing(vector<double> vec)
{
clock_t startTime, endTime;
startTime = clock(); //计时开始
vector<double> result;
result.resize(n_size);
for (size_t i = 0; i < n_size; i++)
{
result[i] = vec[i] * vec[i] * vec[i] / vec[i];
}
endTime = clock(); //计时开始
cout << "CPU Use Time:" << (double)(endTime - startTime) / CLOCKS_PER_SEC << "s" << endl;
}
int main()
{
double num_test = test;
vector<double> nums;
for (size_t i = 0; i < n_size; i++)
{
nums.push_back(num_test);//赋予测试数
}
GPU_Computing(nums);
CPU_Computing(nums);
cout << "测试完毕。" << "\n";
}
1000万大小的数组测试用时对比:
500万数组测试大小的数组测试用时对比:
100万数组测试大小的数组测试用时对比:
10万数组测试大小的数组测试用时对比:
在循环数量过少的情况下,例如少于10w次循环下,CPU执行速度会比GPU执行速度快。原因可能在于GPU获取数据有固定时间消耗,无法像CPU一样直接调度数据总线。因此会产生在循环数量很多时,CPU和GPU的差异才会被拉开,当1000w次循环下,GPU用时会节约几十倍。