利用高性能计算加速深度学习算法

最新推荐文章于 2024-01-11 01:11:58 发布

天山

最新推荐文章于 2024-01-11 01:11:58 发布

阅读量1.3w

点赞数 9

分类专栏： gpu hpc cuda 文章标签： GPU 深度学习 cafee DNN 高性能计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhang0311/article/details/49467801

版权

本文介绍了如何利用GPU进行深度学习算法的加速，包括单GPU并行、多GPU卡的数据并行和模型并行计算，以及GPU集群的并行模式。详细探讨了CPU+GPU异构计算的优势，并通过Caffe和DNN的实际测试展示了性能提升。此外，还提到了CPU+FPGA协同计算在解决线上计算功耗问题上的潜力。

摘要由CSDN通过智能技术生成

1. 深度学习

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习典型应用为图像识别和语音识别。（由于本人不是深度学习专业人士，对深度学习理论知识不多介绍，说多了就班门弄斧了，后面主要介绍下这些深度学习算法如何进行并行化设计和优化）

2. CPU+GPU异构协同计算简介

近年来，计算机图形处理器（GPU，GraphicsProcess Unit）正在以大大超过摩尔定律的速度高速发展（大约每隔半年 GPU 的性能增加一倍），远远超过了CPU 的发展速度。

CPU+GPU异构协同计算模式(图1)，利用CPU进行复杂逻辑和事务处理等串行计算，利用 GPU 完成大规模并行计算，即可以各尽其能，充分发挥计算系统的处理能力。

图1 CPU+GPU异构体系结构

目前，主流的GPU具有强大的计算能力和内存带宽，如图2所示，无论性能还是内存带宽，均远大于同代的CPU。对于GPU， Gflop/$和Gflops/w均高于CPU。

图2 GPU计算能力

3. 深度学习中的CPU+GPU集群架构

CPU+GPU集群工作模式（图3），每个节点内采用CPU+GPU异构模式，并且每个节点可以配置多块GPU卡。节点间采用高速InfiniBand网络互连，速度可以达到双向56Gb/s,实测双向5GB/s。后端采用并行文件系统。采用数据划分、任务划分的方式对应用进行并行化，适用于大规模数据并行计算。

图3 CPU+GPU集群架构

4. 利用GPU加速深度学习算法

4.1

最低0.47元/天解锁文章

关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天山 CSDN认证博客专家 CSDN认证企业博客

码龄16年

31: 原创

23万+: 周排名

134万+: 总排名

22万+: 访问

: 等级

2369: 积分

125: 粉丝

36: 获赞

43: 评论

78: 收藏

私信

关注

热门文章

分类专栏

cuda 12篇
gpu 12篇
hpc 35篇
mic 25篇
intel xeon phi 13篇
opencv 1篇
技术新闻 1篇
DB 1篇
AI 2篇

最新评论

Horovod安装和使用
MPCheng: Windows下是不是安装不了呀我是在Windows下pycharm软件中pytorch环境下pip安装horovod的安装不成功但是在乌班图下成功了
Horovod安装和使用
m0_62613625: 请问一下我搜索后看到需要在linux或 macOS才能安装horovod，请问windows上可以安装吗
MIC编程（5 ）——MIC驱动MPSS安装
Unicorn69: intel官网的那几个资源挂了，想问下您这有存这些资源吗
GPU高性能计算与图像处理
熊老犇: 是用双端机实现的协处理器吗
Horovod安装和使用
哈哈大师2017: 楼主请问一下，用horovod之后，gpu的利用率始终没有超过10%，这个可能是什么原因造成的呢？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。