cnn
记得努力o
这个作者很懒,什么都没留下…
展开
-
CPU峰值性能计算方法
最近在整cpu的CNN推理性能优化,不可避免的要清楚CPU的性能峰值在哪里,因此要算峰值算力,在查的时候发现很多人都说的不对。CPU的峰值算力主要是从以下几个方面考虑:FMA乘加运算、Turbo frequency、CPI、CPU core、SIMD。FMA乘加运算:算关于cnn的算力都是算乘加的性能的,流水线后乘法和加法能够并行运算,所以算力乘2既可。 Turbo frequency:Turbo是intel的自动超频技术,intel cpu会根据任务量自动调整频率,用的core越少,频率会越高。原创 2020-09-06 19:44:38 · 8837 阅读 · 4 评论 -
基于FPGA的卷积网络加速(1)
vivado hls是用高级语言设计硬件电路的IDE,vivado sdsoc则用于软硬件协同也就是arm传数据到FPGA,FPGA把结果传回到FPGA,开发人员不需要知道繁琐的接口的写法,只需要指定硬件函数和调用就可以。卷积神经网络加速,最基础的也很重要的一部分就是卷积层加速了,调好一个卷积层函数或者写成模板函数,多个串联起来,就可以在硬件上实现一个卷积神经网络了。所以,这里想总结一下...原创 2019-04-16 11:43:13 · 742 阅读 · 0 评论 -
基于FPGA的卷积网络加速(2)
分享一下是实现的CNN卷积层的一些思路,我使用的工具是xilinx的hls高级综合开发IDE,可以用高级语言c/c++来开发硬件,具体文档可看xilinx的ug902。考虑最后希望实现摄像头采集图像,FPGA加速CNN之后能够实时地输出结果(目标检测或者分类都有可能)。而摄像头是以行扫描的方式输出一幅图像,所以把输入图像数据按行存在DDR,而FPGA按行从DDR读图像。FPGA的特点...原创 2019-04-28 19:18:09 · 1099 阅读 · 0 评论