- 博客(5)
- 收藏
- 关注
原创 CPU峰值性能计算方法
最近在整cpu的CNN推理性能优化,不可避免的要清楚CPU的性能峰值在哪里,因此要算峰值算力,在查的时候发现很多人都说的不对。CPU的峰值算力主要是从以下几个方面考虑:FMA乘加运算、Turbo frequency、CPI、CPU core、SIMD。FMA乘加运算:算关于cnn的算力都是算乘加的性能的,流水线后乘法和加法能够并行运算,所以算力乘2既可。 Turbo frequency:Turbo是intel的自动超频技术,intel cpu会根据任务量自动调整频率,用的core越少,频率会越高。
2020-09-06 19:44:38
9734
4
原创 ZYNQ PS与PL共享DDR
平台: 开发板:ZYNQ-7000系列裸板开发开发环境:vivado hls、vivado、sdk参考https://blog.csdn.net/weixin_36474809/article/details/85111550https://www.csdn.net/link?target_url=http%3A%2F%2Fwww.eefocus.com%2Fanta...
2019-11-07 20:37:35
10769
3
原创 cuda 矩阵乘法加速
在实验室做的方向时是异构加速,基于FPGA加速CNN,用xilinx的hls和sdsoc环境,但是找工作方向这两开发环境真就没啥企业在用,所以就近学学cuda,gpu加速。为什么是先做矩阵乘法是基于做了挺长一段时间的CNN加速来考虑的 矩阵乘法是神经网络的核心所在https://blog.csdn.net/lanchunhui/article/details/74838635。cpu计算...
2019-08-30 16:20:31
3013
2
原创 基于FPGA的卷积网络加速(2)
分享一下是实现的CNN卷积层的一些思路,我使用的工具是xilinx的hls高级综合开发IDE,可以用高级语言c/c++来开发硬件,具体文档可看xilinx的ug902。考虑最后希望实现摄像头采集图像,FPGA加速CNN之后能够实时地输出结果(目标检测或者分类都有可能)。而摄像头是以行扫描的方式输出一幅图像,所以把输入图像数据按行存在DDR,而FPGA按行从DDR读图像。FPGA的特点...
2019-04-28 19:18:09
1166
原创 基于FPGA的卷积网络加速(1)
vivado hls是用高级语言设计硬件电路的IDE,vivado sdsoc则用于软硬件协同也就是arm传数据到FPGA,FPGA把结果传回到FPGA,开发人员不需要知道繁琐的接口的写法,只需要指定硬件函数和调用就可以。卷积神经网络加速,最基础的也很重要的一部分就是卷积层加速了,调好一个卷积层函数或者写成模板函数,多个串联起来,就可以在硬件上实现一个卷积神经网络了。所以,这里想总结一下...
2019-04-16 11:43:13
806
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人