NEON优化：软件性能优化、降功耗怎么搞？

来知晓

已于 2024-01-26 17:29:50 修改

阅读量1.2k

点赞数 1

分类专栏：经验总结文章标签：性能优化 NEON优化

于 2022-06-24 21:57:46 首次发布

本文链接：https://blog.csdn.net/qq_17256689/article/details/125308629

版权

经验总结专栏收录该内容

38 篇文章 9 订阅

订阅专栏

NEON优化：软件性能优化、硬件降功耗怎么搞？

NEON优化系列文章：

NEON优化1：软件性能优化、降功耗怎么搞？link
NEON优化2：ARM优化高频指令总结， link
NEON优化3：矩阵转置的指令优化案例，link
NEON优化4：floor/ceil函数的优化案例，link
NEON优化5：log10函数的优化案例，link
NEON优化6：关于交叉存取与反向交叉存取，link
NEON优化7：性能优化经验总结，link
NEON优化8：性能优化常见问题QA，link

背景

为了移动端或嵌入式设备等场景也能用上前沿技术，产品往往会上一些复杂的算法模型，但由于算法开销过大，导致实时性差、功耗高等问题，需要进行端侧的性能优化。

如何在不改变算法效果的前提下，降低算法代码的时间复杂度，成了许多工程师不得不面对的问题。

性能优化基础之MCPS和MIPS

首先，在进行性能优化前，应找到一个具体的性能衡量指标，即MIPS/MCPS。

MIPS：million instructions per second，程序运行时每秒所耗费的指令数
MCPS：million cycles per second，程序运行时每秒所耗费的周期数

MIPS和MCPS的区别

MIPS是指令数，不同平台软仿和硬仿的差距不大
MCPS是周期数，由于有硬件优化，可能不同平台会出现MCPS不同，甚至比MIPS还小。

一般软仿结果，MIPS都比MCPS小，因为软仿工具RVDS的CPI最小才能为1，硬仿结果能直接获得MCPS数。硬仿时，好的CPU能做到CPI小于1，即1个周期多指令，具体见：link。

With a single-execution-unit processor, the best CPI attainable is 1. However, with a multiple-execution-unit processor, one may achieve even better CPI values (CPI < 1).

性能世界的单位：cycle、tick

性能优化常用“cycle”作为单位，cycle本质是CPU主频的倒数。这个可比time的精度高多了。
从硬件原理上，CPU是靠一个心跳来驱动它工作的，每次心跳就是一个cycle，硬件工程师也爱把心跳称为tick。
计算公式：1 cycle = 1 tick = (1/CPU主频)秒
——引自网络

性能分析中的指令周期与执行时间的关系是？

先有晶振，然后产生时钟周期（如主频2000MHz），再运行程序计算（消耗一定的指令周期Cycles），最后计算成百万周期数(MCPS/MIPS)来评估算法时间开销。
运行一个指令一般会消耗1个或多个周期数，周期到指令的转化为，CPI(Cycle per Instruction)，一般大于1，希望接近或小于1。

主频与周期数、执行时间的转换公式

如何在代码中计算时钟周期数，https://blog.csdn.net/qq_38877888/article/details/103848455
时钟周期与指令周期，MIPS与CPI，https://blog.csdn.net/tuyu265/article/details/105209683

MIPS计算DEMO

目录结构：

src
- main.c
  - void test(int* arr, int len);
- vpu.h
- vpu.s

计算代码：

#include <stdio.h>

#define MIPS_COUNT_ARM_CORTEX

#ifdef MIPS_COUNT_ARM_CORTEX
#include "v7_pmu.h"
#endif

#ifdef MIPS_COUNT_ARM_CORTEX
#define MILLION_UNIT        (1000000.f)
#define KILO_UNIT           (1000.f)
#define FRAME_LEN_MS        (10.f)     // 10ms
#define COUNT_NUM           1000
unsigned int counter0;
unsigned int cycle_count1;
unsigned int cycle_count2;
unsigned int cur_time = 0;
long double cur_time_tmp = 0.0;
double avg_time = 0; 
unsigned long avg_time_tmp = 0;
unsigned int peak_time = 0;
float cycle2mips_coef = (1 / MILLION_UNIT) / (FRAME_LEN_MS / KILO_UNIT);  // unit: mips

void calcu_mips_start(void)
{
    enable_pmu();                // Enable the PMU
    reset_ccnt();                // Reset the CCNT (cycle counter)
    reset_pmn();                 // Reset the configurable counters
    pmn_config(0, 0x03);         // Configure counter 0 to count event code 0x03
    enable_ccnt();               // Enable CCNT
    enable_pmn(0);               // Enable counter
    counter0 = read_pmn(0);      // Read counter 0
    cycle_count1 = read_ccnt();  // Read Core cycle
}

void calcu_mips_end(void)
{
    cycle_count2 = read_ccnt();
    cur_time = cycle_count2 - cycle_count1;
    // 10^6 => million cycle, *1000/frmeLms => second
    cur_time_tmp = (float)cur_time * cycle2mips_coef; // mips
    avg_time_tmp += (unsigned int)cur_time_tmp;
    if (cur_time > peak_time) {
            peak_time = cur_time;
    }
    printf("%.2f mips \n", cur_time_tmp);
}

void print_mips_result(void)
{
    avg_time = (double)avg_time_tmp / COUNT_NUM;
    printf("max %.2f mips \n", (float)peak_time * cycle2mips_coef);
    printf("avg %.2f mips \n", avg_time);
}
#endif

void main(void) {
    // set mannual
    int cnt = COUNT_NUM;

    while(cnt--) {
#ifdef MIPS_COUNT_ARM_CORTEX
    	calcu_mips_start();
#endif

        // test();

#ifdef MIPS_COUNT_ARM_CORTEX
    	calcu_mips_end();
#endif
    }

#ifdef MIPS_COUNT_ARM_CORTEX
    	print_mips_result();
#endif
}

计算开销的模块函数通常放到要测试开销的相关函数如test()前后，即可得到该函数的单独MIPS开销，当然，也可以根据总体程序运行的开销乘相关函数所占开销比例得到，但计算不便，这里不推荐。

测试工具及流程

所需工具

软仿测试工具通常采用ARM公司的RVDS（RealView Development Suite）开发套件，模拟各种内核处理进行仿真，得到开销数据。

硬仿测试工具通常是用Andriod平台自带的simpleperf工具，将可执行文件直接推到手机上运行，实时抓取CPU数据得到实际开销数据，并绘制出图，俗称火焰图。

软硬仿优化流程

软仿流程
- 安装RVDS软件
- 配置代码工程环境
- 跑通代码
- 编写开销计算代码
- 仿真Profile
- 得到热点函数和开销基线
- 进行代码优化
- 测试热点函数开销
硬仿流程
- 与软仿流程类似
- 建议先软仿，再硬仿
- 涉及到IO读写等开销问题，软仿无法模拟实际运行情况，以硬仿结果为准

有了热点开销函数，就可以进行相关指令集及代码优化了。