高通cDSP介绍汇总

最新推荐文章于 2024-08-13 14:07:23 发布

于大博

最新推荐文章于 2024-08-13 14:07:23 发布

阅读量1w

点赞数 4

文章标签：硬件架构 Qualcomm

本文链接：https://blog.csdn.net/u011086209/article/details/126946472

版权

Qualcomm Hexagon Compute DSP (cDSP)是高通平台上专门用来做通用计算的硬件加速单元，与主机 CPU 相比，DSP 通常以较低的时钟速度运行，并提供更多的并行指令级。这使得 DSP 在功耗方面成为 CPU 的更好替代品。因此，将尽可能多的大型计算密集型任务移植到 DSP 上，可以降低设备的整体功耗。

cDSP主要用途有：

摄像头、视频的图像增强相关处理计算机视觉、增强、虚拟现实处理深度学习硬件加速

cDSP在SOC架构中位于下图红色框内。

cDSP硬件架构&芯片结构

Hexagon Scalar Core

Hexagon 标量核心包含4个或更多的DSP 硬件线程，每个 DSP 硬件线程都可以访问 Hexagon 标量单元，这些单元对单个或成对 32 位寄存器执行定点和浮点运算。每个硬件线程包含4个通用寄存器（R0-R31）、4个预测判断寄存器（P0-P3）及4个执行单元(S0-S3)。

Qualcomm Hexagon Vector eXtensions-HVX（“Hexagon矢量扩展”，Hexagon-六边形、Vector-矢量、Extensions-扩展)是Hexagon 680 DSP的典型特性，能够在执行图像处理应用中的计算负载当中发挥重要作用，比如虚拟现实、增强现实、图像处理、视频处理、计算视觉等。此前这些任务均是由CPU或GPU来执行，如今交给Hexagon 680 DSP，能够达到更加高效、功耗更低的效果。

　　HVX之所以这么重要是因为它能比CPU处理像素的速度更快，CPU只能在同一时间处理1个或2个像素。但有了HVX，能够在同一时间处理超过100个像素，这种并行算法结合先进的HVX指令体系，创造了一种在处理相机图片时，比CPU更加快速高效的效率及更低的功耗。根据高通数据，Hexagon 680 DSP相比于以前只有NEON优化的情况下，性能可提升1到3倍，而功耗可降低到原来的1/18到1/4。而支持HVX的Hexagon 680 DSP能够比直接通过CPU处理，达到更快的处理速度——其能够完成原本需要CPU来完成的工作，并且无需唤醒，全时间待命，更高效、效果更好。

　　通过集成HVX，Hexagon 680 DSP中添加了对于视频即时处理的支持，搭载骁龙820和骁龙821处理器的手机拍摄视频时，也能运用自适应增量功能，视频中过暗的部分可以自动进行增亮。当DSP察觉到画面较暗的区域，会自动将这些区域调亮，搭载Hexagon 680 DSP的骁龙820和骁龙821在处理这些内容时，处理速度相比上一代技术快3倍，而功耗却仅有此前的10%。

内存

cDSP软件架构：

HVX的优势：

更强的数据并行处理能力（1024b 指令位宽，且有多个线程可并行，线程里面每个packet可同时并行执行四条指令）
1、更低的功耗
2、更高的运行稳定性
3、HVX以其优越的特性，能完美支持多个领域，比如虚拟现实、增强现实、图像处理、视频处理、计算视觉等等。

FastRPC

#Skel动态库

HAP

QuRT

cDSP开发

以Example/calculator_c++为例

#编译

Hexgon DSP SDK V4.5支持用CMake编译。

build_cmake hexagon BUILD=Debug DSP_ARCH=v66

build_cmake android BUILD=Debug

【运行】

【直接在模拟器运行】

$DEFAULT_HEXAGON_TOOLS_ROOT/Tools/bin/hexagon-sim -mv66 --simulated_returnval --usefs hexagon_Debug_toolv85_v66 --pmu_statsfile hexagon_Debug_toolv85_v66/pmu_stats.txt --cosim_file hexagon_Debug_toolv85_v66/q6ss.cfg --l2tcm_base 0xd800 --rtos hexagon_Debug_toolv85_v66/osam.cfg ~/Qualcomm/Hexagon_SDK/4.5.0.3/rtos/qurt/computev66/sdksim_bin/runelf.pbn -- ~/Qualcomm/Hexagon_SDK/4.5.0.3/libs/run_main_on_hexagon/ship/hexagon_toolv85_v66/run_main_on_hexagon_sim -- ./hexagon_Debug_toolv85_v66/ship/libcalculator_plus_q.so

在设备上运行：

#建立运行环境

adb root

adb remount

#push android libs

adb shell mkdir -p /vendor/bin/

adb push android_Debug_aarch64/ship/calculator_plus /vendor/bin/

adb shell chmod 777 /vendor/bin/calculator_plus

adb push android_Debug_aarch64/ship/libcalculator_plus.so /vendor/lib64/

#把DSP库push到设备

adb shell mkdir -p /vendor/lib/rfsa/dsp/sdk

adb push hexagon_Debug_toolv85_v66/ship/libcalculator_plus_skel.so /vendor/lib/rfsa/dsp/sdk/

adb push hexagon_Debug_toolv85_v66/libc++.so.1 /vendor/lib/rfsa/dsp/sdk/

adb push hexagon_Debug_toolv85_v66/libc++abi.so.1 /vendor/lib/rfsa/dsp/sdk/

#运行

export LD_LIBRARY_PATH=/vendor/lib64/

export DSP_LIBRARY_PATH=/vendor/lib/rfsa/dsp/sdk

calculator_plus -m sum -i 100

#调试

#调试Log输出

在代码中加入FARF log打印：

#include

FARF(LOW, "something happened: %s", (const char*)string);

设置Log输出级别，通过logcat查看

adb shell echo "0x1f > /vendor/lib/rfsa/dsp/sdk/calculator_plus.farf"

adb logcat -s adsprpc

#cDSP性能调优

Profiling

在DSP上可用的profile方法如下：

HAP perf 需要在代码上加入性能统计API，统计代码运行的性能开销。

Hexagon Trace Analyzer可以在模拟器上运行并生成性能分析报告，目前在XR2上还不支持在设备上运行，可能在高版本上支持。

sysMon支持在设备上运行，通过sysMon可以监控DSP运行的性能数据，如频率、指令数、核心状态等。

编译优化

DSP编译Debug版本没有做性能优化，Release做了比较多的优化，性能要比Debug版本好10倍以上，所以在测试性能时，必须要在Release版本上进行。