
DL框架实战与源码理解
文章平均质量分 93
主要涉及Tensorflow、Pytorch等深度学习框架的学习和对其源码的理解。
小小何先生
总是感觉自己是个英雄,还很帅!
展开
-
PyTorch中的梯度微分机制
详细介绍PyTorch中的梯度微分机制原创 2022-01-18 13:57:11 · 1419 阅读 · 0 评论 -
PyTorch中查看GPU使用情况以及一些重要函数
文章目录服务器GPU状态查询torch.cuda主要函数指定显卡服务器GPU状态查询$ lspci | grep -i nvidia # 可以查询所有nvidia显卡$ lspci -v -s [显卡编号] # 可以查看显卡具体属性$ nvidia-smi # 可以查看显卡的显存利用率 lspci是一种实用程序,用于在系统中显示有关pci总线的信息以及连接到它们的设备。 如果想要实时查看显卡信息,可以组合watch命令:$ watch -n 1 nvidia-smi 1表示每隔1秒原创 2020-12-25 10:27:08 · 14008 阅读 · 2 评论 -
Tensorflow相关学习笔记(一)GPU处理相关
文章目录查看tensorflow-gpu是否可用指定GPU定量设置显存按需分配查看tensorflow-gpu是否可用import tensorflow as tfprint(tf.test.is_gpu_available()) 输出为True表示可用。指定GPUimport osos.environ["CUDA_VISIBLE_DEVICES"] = "2" 指定为第二块GPU。定量设置显存 设置使用的GPU显存:gpu_options = tf.GPUOptions(p翻译 2020-09-25 15:42:35 · 295 阅读 · 1 评论 -
PyTorch并行与分布式(四)Distributed Data Papallel
文章目录简要概览源码解析实例参考简要概览 pytorch官方提供的分布式数据并行类为:torch.nn.parallel.DistributedDataParallel(module, device_ids=None, output_device=None, dim=0, broadcast_buffers=True, process_group=None, bucket_cap_mb=25, find_unused_parameters=Fa原创 2020-12-12 10:06:40 · 2699 阅读 · 0 评论 -
PyTorch并行与分布式(三)DataParallel原理、源码解析、举例实战
文章目录简要概览源码解析实例简要概览 pytorch官方提供的数据并行类为:torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) 当给定model时,主要实现功能是将input数据依据batch的这个维度,将数据划分到指定的设备上。其他的对象(objects)复制到每个设备上。在前向传播的过程中,module被复制到每个设备上,每个复制的副本处理一部分输入数据。在反向传播过程中,每个副本module的原创 2020-12-12 10:06:30 · 4245 阅读 · 2 评论 -
PyTorch并行与分布式(二)分布式通信包torch.distributed
本文主要参考资料为distributed communication package torch.distributed参考distributed communication package torch.distributed原创 2020-12-12 10:06:10 · 7745 阅读 · 0 评论 -
PyTorch并行与分布式(一)概述
文章目录数据并行训练单机多GPU的DataParallel方式:单机多GPU的DistributedDataParallel方式:通用的分布式训练参考 逃也逃不掉,并行与分布式肯定是要整起来的。本系列主要来自官方教程学习笔记。 从基本的并行化原理上来讲,分布式深度学习分为数据并行(Data Parallelism)以及模型并行(Model Parallelism)。 数据并行指每个设备有神经网络模型的完整拷贝并独立处理其输入数据流、每次迭代后将更新归并到参数服务器(Parameter Serve原创 2020-12-12 10:05:59 · 1126 阅读 · 0 评论