推理前处理neon加速实现neon_mean_scale

最新推荐文章于 2023-03-06 14:38:50 发布

haima1998

最新推荐文章于 2023-03-06 14:38:50 发布

阅读量595

点赞数 1

分类专栏： deep learning 图像处理和显示

本文链接：https://blog.csdn.net/haima1998/article/details/116892508

版权

deep learning 同时被 2 个专栏收录

243 篇文章 16 订阅

订阅专栏

图像处理和显示

76 篇文章 8 订阅

订阅专栏

转自：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.1/deploy/android_demo/app/src/main/cpp/preprocess.cpp

// fill tensor with mean and scale and trans layout: nhwc -> nchw, neon speed up
void neon_mean_scale(const float *din, float *dout, int size,
const std::vector<float> &mean,
const std::vector<float> &scale) {
if (mean.size() != 3 || scale.size() != 3) {
LOGE("[ERROR] mean or scale size must equal to 3");
return;
}

float32x4_t vmean0 = vdupq_n_f32(mean[0]);
float32x4_t vmean1 = vdupq_n_f32(mean[1]);
float32x4_t vmean2 = vdupq_n_f32(mean[2]);
float32x4_t vscale0 = vdupq_n_f32(scale[0]);
float32x4_t vscale1 = vdupq_n_f32(scale[1]);
float32x4_t vscale2 = vdupq_n_f32(scale[2]);

float *dout_c0 = dout;
float *dout_c1 = dout + size;
float *dout_c2 = dout + size * 2;

int i = 0;
for (; i < size - 3; i += 4) {
float32x4x3_t vin3 = vld3q_f32(din);
float32x4_t vsub0 = vsubq_f32(vin3.val[0], vmean0);
float32x4_t vsub1 = vsubq_f32(vin3.val[1], vmean1);
float32x4_t vsub2 = vsubq_f32(vin3.val[2], vmean2);
float32x4_t vs0 = vmulq_f32(vsub0, vscale0);
float32x4_t vs1 = vmulq_f32(vsub1, vscale1);
float32x4_t vs2 = vmulq_f32(vsub2, vscale2);
vst1q_f32(dout_c0, vs0);
vst1q_f32(dout_c1, vs1);
vst1q_f32(dout_c2, vs2);

din += 12;
dout_c0 += 4;
dout_c1 += 4;
dout_c2 += 4;
}
for (; i < size; i++) {
*(dout_c0++) = (*(din++) - mean[0]) * scale[0];
*(dout_c1++) = (*(din++) - mean[1]) * scale[1];
*(dout_c2++) = (*(din++) - mean[2]) * scale[2];
}
}

haima1998

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
推理前处理neon加速实现neon_mean_scale

转自：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.1/deploy/android_demo/app/src/main/cpp/preprocess.cpp// fill tensor with mean and scale and trans layout: nhwc -> nchw, neon speed upvoid neon_mean_scale(const float *din, float *dout, int s
复制链接

扫一扫