SIMD
Mars_WH
微信:75582029 欢迎交流。从事图像深度学习相关开发,主方向:目标检测分割、模型压缩、引擎优化,常用语言:C++、Python,常用框架:Caffe、Pytorch、TensorFlow,常用技术:CUDA、TensorRT、TVM、Boost,常用系统:Linux、Windows,常用IDE:CLion、PyCharm、VS,常用编译工具:CMake、GCC,常用硬件:Jetson TX1/2,Tesla P4,海思Hi3559A,昇腾310,比特大陆BM1682
展开
-
(NEON实例一)ARM处理器NEON编程及优化技巧——数据加载和存储
ARM处理器NEON编程及优化技巧——数据加载和存储 ARM的NEON协处理器技术是一个64/128-bit的混合SIMD架构,用于加速包括视频编码解码、音频解码编码、3D图像、语音和图像等多媒体和信号处理应用。本文主要介绍如何使用NEON的汇编程序来写SIMD的代码,包括如何开始NEON的开发,如何高效的利用NEON。首先会关注内存操作,即如何变更指令来灵活有效的加载和存储转载 2015-04-15 19:01:24 · 8899 阅读 · 0 评论 -
(NEON实例二)ARM处理器NEON编程及优化技巧——处理剩余的元素
ARM的NEON协处理器技术是一个64/128-bit的混合SIMD架构,用于加速包括视频编码解码、音频解码编码、3D图像、语音和图像等多媒体和信号处理应用。本文主要介绍如何使用NEON的汇编程序来写SIMD的代码,包括如何开始NEON的开发,如何高效的利用NEON。首先会关注内存操作,即如何变更指令来灵活有效的加载和存储数据。接下来是由于SIMD指令的应用而导致剩下的若干个单元的处理,然后是用一转载 2015-04-18 10:38:04 · 3423 阅读 · 0 评论