ARM的NEON协处理器技术是一个64/128-bit的混合SIMD架构,用于加速包括视频编码解码、音频解码编码、3D图像、语音和图像等多媒体和信号处理应用。本文主要介绍如何使用NEON的汇编程序来写SIMD的代码,包括如何开始NEON的开发,如何高效的利用NEON。首先会关注内存操作,即如何变更指令来灵活有效的加载和存储数据。接下来是由于SIMD指令的应用而导致剩下的若干个单元的处理,然后是用一个矩阵乘法的例子来说明用NEON来进行SIMD优化,最后关注如何用NEON来优化各种各样的移位操作,左移或者右移以及双向移位等。本节是一个用NEON优化矩阵乘法的实例。
矩阵
本节将介绍如何用NEON有效的处理一个4x4的矩阵乘法运算,这种类型的运算经常用于3D图形,我们认为这些矩阵在内存里是按照列为主排列的,这是按照OPENGL-ES的通用格式。
矩阵乘法算法
我们首先看一下矩阵乘法的计算方式,计算的展开,用NEON指令来进行子操作过程。
图1. 以列为主的矩阵乘法运算
由于数据是按照列序存储的,因而矩阵乘法就是把第一个矩阵的每一列乘以第二个矩阵的每一行,然后把乘积结果相加。乘累加结果 作为结果矩阵的一个元素。