在matlab下用openCL写了一个简单的矩阵pooling算法,也就是将一个矩阵的行列减半,每四个元素求平均值。发现使用直接迭代和使用openCL的结果存在部分值不相等的情况。起初以为是程序编写问题,经仔细检查发现是GPU上的单精度对比CPU单精度存在精度损失的情况,GPU上的浮点数是符合IEEE754标准的,而CPU的浮点数通常是过度设计的。对此,《深入理解计算机系统》中说到过,CPU的fpu寄存器位数为80位(指双精度浮点数,单精度浮点数也是高于IEEE标准,通常是40位)。然后运行clinfo发现float的最大传输量为4,SIMD数据长度为128,因此GPU的寄存器位数为32位(我的GPU只支持单精度浮点数)。幸好精度损失不大。
首先主文件
clear
clc
num = [];
error = [];
for k = 3:10
num = [num 2^k];
[A, data] = testCL(2^k);
nativeTest1;
error = [error mean(mean(A-B))];
end
然后是直接pooling
for i = 1 : size(data,1)/2
for j = 1 : size(data,2)/2
B(i,j) = (data((i-1)*2+1, (j-1)*2+1) + data((i-1)*2+1, j*2) + data(i*2, (j-1)*2+1) + data(i