CPU指令级优化（1）

最新推荐文章于 2025-09-08 16:26:39 发布

原创

最新推荐文章于 2025-09-08 16:26:39 发布 · 6.9k 阅读

8 ·

CC 4.0 BY-SA版权

简介

Intel的CPU和ARM的CPU都有SIMD指令，可以完成CPU 指令级的并行化。这里边主要涉及CPU的汇编的知识和一些寄存器的知识。在一些耗时的SLAM优化迭代的场合，经常出现这样的指令的优化。SSE是Intel x86架构CPU的SIMD指令的简称，NEON是ARM CPU的SIMD指令的简称。

由于项目的需要，我以前的时候用过一段SSE指令，后来一段时间没有在接触过，最近在玩飞机，我们在DJI M100上加了ARM架构的TK1板，在移植slam的代码的时候，一些SSE的代码需要转换为NEON指令。因此这里做了一些两种SIMD指令的转化和比较。

寄存器的基础知识

一般computer中存在内存，内存就像仓库，我们不常用的东西分类放到仓库里边去。等到用的时候就会拿出来放在手边，手边的一些柜子书桌就是CPU中的寄存器。寄存器的位数和指令的位宽是一样的。我们说128位的指令位宽，那么对应的寄存器的位数就是128位，而CPU每次可以计算的数据的宽度最大也是128位。因为我们常用的数据达不到这样的宽度，这样每个指令周期就可以执行多个数据的计算。这就是所谓向量化计算。