自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_38128961的博客

原创 CPU峰值性能计算方法

最近在整cpu的CNN推理性能优化，不可避免的要清楚CPU的性能峰值在哪里，因此要算峰值算力，在查的时候发现很多人都说的不对。CPU的峰值算力主要是从以下几个方面考虑：FMA乘加运算、Turbo frequency、CPI、CPU core、SIMD。FMA乘加运算：算关于cnn的算力都是算乘加的性能的，流水线后乘法和加法能够并行运算，所以算力乘2既可。 Turbo frequency：Turbo是intel的自动超频技术，intel cpu会根据任务量自动调整频率，用的core越少，频率会越高。

2020-09-06 19:44:38 9734 4

原创 ZYNQ PS与PL共享DDR

平台：开发板：ZYNQ-7000系列裸板开发开发环境：vivado hls、vivado、sdk参考https://blog.csdn.net/weixin_36474809/article/details/85111550https://www.csdn.net/link?target_url=http%3A%2F%2Fwww.eefocus.com%2Fanta...

2019-11-07 20:37:35 10769 3

原创 cuda 矩阵乘法加速

在实验室做的方向时是异构加速，基于FPGA加速CNN，用xilinx的hls和sdsoc环境，但是找工作方向这两开发环境真就没啥企业在用，所以就近学学cuda，gpu加速。为什么是先做矩阵乘法是基于做了挺长一段时间的CNN加速来考虑的矩阵乘法是神经网络的核心所在https://blog.csdn.net/lanchunhui/article/details/74838635。cpu计算...

2019-08-30 16:20:31 3013 2

原创基于FPGA的卷积网络加速（2）

分享一下是实现的CNN卷积层的一些思路，我使用的工具是xilinx的hls高级综合开发IDE，可以用高级语言c/c++来开发硬件，具体文档可看xilinx的ug902。考虑最后希望实现摄像头采集图像，FPGA加速CNN之后能够实时地输出结果（目标检测或者分类都有可能）。而摄像头是以行扫描的方式输出一幅图像，所以把输入图像数据按行存在DDR，而FPGA按行从DDR读图像。FPGA的特点...

2019-04-28 19:18:09 1166

原创基于FPGA的卷积网络加速（1）

vivado hls是用高级语言设计硬件电路的IDE，vivado sdsoc则用于软硬件协同也就是arm传数据到FPGA，FPGA把结果传回到FPGA，开发人员不需要知道繁琐的接口的写法，只需要指定硬件函数和调用就可以。卷积神经网络加速，最基础的也很重要的一部分就是卷积层加速了，调好一个卷积层函数或者写成模板函数，多个串联起来，就可以在硬件上实现一个卷积神经网络了。所以，这里想总结一下...

2019-04-16 11:43:13 806

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄8年

5
原创

20
点赞

138
收藏

14
粉丝

关注

私信

热门文章

分类专栏

秋招
异构计算 2篇
机器学习 2篇
cnn 3篇
FPGA 2篇

最新评论

ZYNQ PS与PL共享DDR
pjzmj2012: 博主你好，能共享下工程吗？pjzmj2012@163.com
ZYNQ PS与PL共享DDR
普通网友: 博主，你好，我现在也正在学这部分的，困难重重，可以加个联系方式，请教一下吗？
cuda 矩阵乘法加速
INSIGHT_FUL: 这代码看的好揪心啊，真难懂
ZYNQ PS与PL共享DDR
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)使用更多的站内链接；(2)使用标准目录。
CPU峰值性能计算方法
重学CS: 好的，谢谢

提示

确定要删除当前文章？

取消删除