XM4性能优化随记--实时更行

最新推荐文章于 2024-09-24 09:49:39 发布

skyellow

最新推荐文章于 2024-09-24 09:49:39 发布

阅读量606

点赞数 2

分类专栏： GPU XM4 文章标签：深度学习神经网络 tensorflow caffe 嵌入式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skyellow/article/details/89176922

版权

GPU 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1.xm4在simulator下运行正常，但在emulator下，运行出现程序/数据不对的情况。
原因：在simulator下没有检查内存的对齐或者bank 对齐。如vpld 要求内存和bank 对齐，在硬仿环境中就出现了数据执行结果不对。

2.在VS环境中abs指令在XM4执行结果不对。
原因：在XM4下有abs,fabs分别用于整型和浮点型。而下windows vs 都用abs即可。

3.esplice架构的IDE环境，一个lib/prj 点击变量无法跳转到其定义处，此时需要IDE中勾选同workspace 的对应lib/prj的reference.

4.XM4对变量/函数加段指定定义.必须在一个函数的定义编译的时候能发现自己需要指定段的定义，否则你在其他工程中增加此函数/变量的定义也不起作用。

5.关于中断的理解：

1）中断优先级仅在同时刻有时效

2）进入中断vector 后，可屏蔽中断不使能。中断退出，中断恢复。

3）中断嵌套，任何中断到来都会中断现有中断ISR。新中断会从vector 再次进入，那怕是同一中断。

6.关于仿真：

1）硬仿有两种接入方式。V17.1为例，可以如下两种。TCS可以进行VBOX 仿真器的配置。建议用第一种方式，但记得在runing mode选择emulation。simualtor时，如果想统计cycle,必须勾选，runing mode的performance accurate

2)关于仿真器的链接，菊花链接可以支持一个仿真器链接多核。

7.关于DDMA：DDMA记住RTL1.2.0版本是支持256bit的desc,之前的版本是128bit.

8.r8-r15寄存器，尽量少用。r8寄存器一般被编译器用来做SP的指针操作。

9.关于retreg 寄存器，会配套有个retreg temp寄存器。

call指令：后台，PC+1->regtreg

ret指令：regtreg ->pc

push/st regtreg, 会把temp 压栈,再把retreg->temp。 pop/ld temp->regtrg 再栈的值给temp再。temp用于regtreg 缓存。

10.关于指令slot,一个slot 可以理解为一个指令，指令并行目前最多4slot.

11.关于汇编，数据类型。指令.类型

di: VOID

ui:UINT

i8:int8 (8个 int)

12. 关于指令后操作带+ 的post操作。 post后处理是对操作寄存器的后处理，即寄存器指令执行完后+这个值。

13.关于vector: XM4 与arm neon不同，很多数据类型可以像传统的数据类型一样操作。赋值，++，--等运算给，反汇编可以看出，这些操作由编译完成了vector一些ld,st，mov 辅助操作。向量支持的运算操作如下。、

注：float 不支持直接赋值，但支持强制类型转化。 float fa=(float)2.其实后天做了vint2fp指令。

14.关于性能优化：simulator 到emulator的实际运行再10倍左右的差距。通过VPU和DDR->TCM ,DDMA，bank/block指令优化可以达到2倍的差距。软仿和硬仿的差距主角是，软仿无法模拟到DDR的碰撞和带宽的差距。

软仿和硬仿的差距主要就是DDR的使用上，最终能优化多少，还是要看你的业务能多少不受DDR影响。

15.优化中经常出现编译并行的情况，要求前后指令对内存的数据使用必须有完整的前后顺序，因此引入了barrier 指令。ARM 、DSP。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

skyellow

CSDN认证博客专家 CSDN认证企业博客

码龄16年

3: 原创

22万+: 周排名

116万+: 总排名

1889: 访问

: 等级

60: 积分

15: 粉丝

19: 获赞

2: 评论

23: 收藏

私信

关注

热门文章

分类专栏

最新评论

SGBM code细节解析
CSDN-Ada助手: 恭喜您写下了第四篇博客，题为“SGBM code细节解析”！您的持续创作精神令人钦佩。在这篇博客中，您对SGBM code的细节进行了深入解析，给读者带来了很大的帮助。接下来，我建议您可以探索更多相关主题，比如在SGBM code的基础上进行改进或扩展，或者对其他相关算法进行比较与分析。这将为读者提供更多有价值的内容。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
opencv filterSpeckles 源码
CSDN-Ada助手: 恭喜你写了第三篇博客！标题为"opencv filterSpeckles 源码"，看起来非常有深度和技术含量。你对于opencv的研究和分享让我非常钦佩。在接下来的创作中，或许你可以考虑分享一些关于opencv滤波器的使用技巧或者其他相关的源码解析。希望你能继续保持创作的热情，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。