自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 CPU峰值性能计算方法

最近在整cpu的CNN推理性能优化,不可避免的要清楚CPU的性能峰值在哪里,因此要算峰值算力,在查的时候发现很多人都说的不对。CPU的峰值算力主要是从以下几个方面考虑:FMA乘加运算、Turbo frequency、CPI、CPU core、SIMD。FMA乘加运算:算关于cnn的算力都是算乘加的性能的,流水线后乘法和加法能够并行运算,所以算力乘2既可。 Turbo frequency:Turbo是intel的自动超频技术,intel cpu会根据任务量自动调整频率,用的core越少,频率会越高。

2020-09-06 19:44:38 8880 4

原创 ZYNQ PS与PL共享DDR

平台: 开发板:ZYNQ-7000系列裸板开发开发环境:vivado hls、vivado、sdk参考https://blog.csdn.net/weixin_36474809/article/details/85111550https://www.csdn.net/link?target_url=http%3A%2F%2Fwww.eefocus.com%2Fanta...

2019-11-07 20:37:35 9990 3

原创 cuda 矩阵乘法加速

在实验室做的方向时是异构加速,基于FPGA加速CNN,用xilinx的hls和sdsoc环境,但是找工作方向这两开发环境真就没啥企业在用,所以就近学学cuda,gpu加速。为什么是先做矩阵乘法是基于做了挺长一段时间的CNN加速来考虑的 矩阵乘法是神经网络的核心所在https://blog.csdn.net/lanchunhui/article/details/74838635。cpu计算...

2019-08-30 16:20:31 2907 2

原创 基于FPGA的卷积网络加速(2)

分享一下是实现的CNN卷积层的一些思路,我使用的工具是xilinx的hls高级综合开发IDE,可以用高级语言c/c++来开发硬件,具体文档可看xilinx的ug902。考虑最后希望实现摄像头采集图像,FPGA加速CNN之后能够实时地输出结果(目标检测或者分类都有可能)。而摄像头是以行扫描的方式输出一幅图像,所以把输入图像数据按行存在DDR,而FPGA按行从DDR读图像。FPGA的特点...

2019-04-28 19:18:09 1100

原创 基于FPGA的卷积网络加速(1)

vivado hls是用高级语言设计硬件电路的IDE,vivado sdsoc则用于软硬件协同也就是arm传数据到FPGA,FPGA把结果传回到FPGA,开发人员不需要知道繁琐的接口的写法,只需要指定硬件函数和调用就可以。卷积神经网络加速,最基础的也很重要的一部分就是卷积层加速了,调好一个卷积层函数或者写成模板函数,多个串联起来,就可以在硬件上实现一个卷积神经网络了。所以,这里想总结一下...

2019-04-16 11:43:13 745

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除