- 博客(3)
- 资源 (17)
- 问答 (1)
- 收藏
- 关注
原创 并行及分布式框架 -- MPI/NCCL/OPENMP技术
初稿未完成摘要经典并行计算方案介绍。OPENMP技术详细介绍。MPI技术详细介绍。NV集合通信NCCL 技术介绍。MPIMPI(MPI是一个标准,有不同的具体实现,比如MPICH等)是多主机联网协作进行并行计算的工具,当然也可以用于单主机上多核/多CPU的并行计算,不过效率低。它能协调多台主机间的并行计算,因此并行规模上的可伸缩性很强,能在从个人电脑到世界TOP10的超级计算机上使用。缺点是使用进程间通信的方式协调并行计算,这导致并行效率较低、内存开销大、不直观、编程麻烦。OpenMP
2020-12-19 11:50:26 2029 1
原创 实时深度学习的推理加速
作者 Yanchen 毕业于普林斯顿大学机器学习方向,现就职于微软Redmond总部,从事大规模分布式机器学习和企业级AI研发工作。在该篇文章中,作者介绍了实时深度学习的推理加速和持续性训练。引言深度学习变革了许多计算机视觉和自然语言处理(NLP)领域内的任务,它为越来越多的消费者和工业产品提供更强大的智能,并潜在地影响了人们在日常经验和工业实践上的标准流程。从理论上来说,深度学习和其他基于统计机器学习方法的自动化系统十分类似,它们都可以采用两个过程描述。首先,深度神经网络(DNN)模型明确地指向为问题
2020-12-18 06:25:38 928
原创 深度学习训练加速--分布式
一、内部方法网络结构的选择比如 CNN 与 RNN,前者更适合并行架构优化算法的改进:动量、自适应学习率减少参数规模比如使用 GRU 代替 LSTM参数初始化Batch Normalizationmini-batch 的调整二、外部方法GPU 加速数据并行模型并行混合数据并行与模型并行CPU 集群GPU 集群如下图所示(如借用的)这里重点讲解外部加速方法,旨在阐述训练大规模深度学习模型时的分布式计算思想:具体来讲:首先,介绍了分布式计算的基本概念,以及分布式计
2020-12-18 06:24:35 792
python全栈(一)网络通信与服务器之http协议、http服务器-并发服务器的配套html补充
2020-10-14
python全栈(一)网络通信与服务器之http协议、http服务器-并发服务器的配套html
2020-10-14
pytorch1.2.0.rar
2020-07-30
精简的opencv4的库libopencv_world.so
2020-04-04
opencv4交叉编译好的库.rar
2020-04-04
VMware-workstation-full-15.5.0-安装软件.rar
2020-03-24
Linux Makefile工程实战教程.zip
2020-01-19
一学就会——vim高级教程为c、c++量身定制vim.ppt
2020-01-13
C语言入门--必须基础17讲-认识C语言.zip
2020-01-13
python3 报错UnicodeEncodeError
2017-09-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人