深度学习框架搭建的问题记录

深度学习相关问题记录(1)

1 关于GPU,CUDA,cuDNN的理解

参考博客:https://blog.csdn.net/u014380165/article/details/77340765
https://blog.csdn.net/weiweigfkd/article/details/23051255

CPU(中央处理器,Central Processing Unit):擅长流程控制和逻辑处理,不规则数据结构,不可预测存储结构,单线程程序,分支密集型算法 芯片
GPU(图像处理器,Graphics Processing Unit):擅长数据并行计算,规则数据结构,可预测存储模式,适合于大规模并行运算 GPU擅长的是海量数据的快速处理 芯片
CUDA(ComputeUnified Device Architecture,统一计算设备架构),CUDA是一种由NVIDIA推出的通用并行计算架构,只能在NVIDIA的GPU上运行,该架构使GPU能够解决复杂的大量并行计算问题。包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎, 包含了开发库、运行期环境和驱动; 本质是一个工具包(ToolKit)。
cuDNN(CUDA Deep Neural Network library):是NVIDIA打造的针对深度神经网络的加速库,是一个用于深层神经网络的GPU加速库。如果你要用GPU训练模型,cuDNN 不是必须的,但是一般会采用这个加速库。

对应关系:不同显卡对应不同的驱动版本,驱动版本决定CUDA版本; CUDA 版本确定TensorFlow、pytorch 等深度学习框架的安装版本;

另外CUDA 和显卡驱动不是一一对应的,一个驱动可以对应不同版本的CUDA

2 关于深度学习框架的理解

2.1 深度学习框架是什么

参考博客:https://blog.csdn.net/huiyanfei/article/details/8089347

深度学习框架简单来说就是库。作一个简单的比喻,一套深度学习框架就是这个品牌的一套积木,各个组件就是某个模型或算法的一部分,你可以自己设计如何使用积木去堆砌符合你数据集的积木。好处是你不必重复造轮子,模型也就是积木,可以直接组装,但不同的组装方式,也就是不同的数据集则取决于你。

总的来说深度学习框架提供了一些深度学习的组件(对于通用的算法,里面会有实现),当需要使用新的算法的时候就需要用户自己去定义,然后调用深度学习框架的函数接口使用用户自定义的新算法。大部分深度学习框架都包含以下五个核心组件:

  1. 张量(Tensor)
  2. 基于张量的各种操作
  3. 计算图(Computation Graph)
  4. 自动微分(Automatic Differentiation)工具
  5. BLAS、cuBLAS、cuDNN等拓展包

1. 张量(Tensor)

张量是所有深度学习框架中最核心的组件,因为后续的所有运算和优化算法都是基于张量进行的。几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。

举例来说,我们可以将任意一张RGB彩色图片表示成一个三阶张量(三个维度分别是图片的高度、宽度和色彩数据)。将这一定义进行扩展,我们也可以用四阶张量表示一个包含多张图片的数据集,其中的四个维度分别是:图片在数据集中的编号,图片高度、宽度,以及色彩数据。

将各种各样的数据抽象成张量表示,然后再输入神经网络模型进行后续处理是一种非常必要且高效的策略。因为如果没有这一步骤,我们就需要根据各种不同类型的数据组织形式定义各种不同类型的数据操作,这会浪费大量的开发者精力。更关键的是,当数据处理完成后,我们还可以方便地将张量再转换回想要的格式。例如Python NumPy包中numpy.imread和numpy.imsave两个方法,分别用来将图片转换成张量对象(即代码中的Tensor对象),和将张量再转换成图片保存起来。

2. 基于张量的各种操作

整个神经网络都可以简单视为为了达到某种目的,针对输入张量进行的一系列操作过程。而所谓的“学习”就是不断纠正神经网络的实际输出结果和预期结果之间误差的过程。这里的一系列操作包含的范围很宽,可以是简单的矩阵乘法,也可以是卷积、池化和LSTM等稍复杂的运算。而且各框架支持的张量操作通常也不尽相同,详细情况可以查看其官方文档(如下为NumPy、Theano和TensorFlow的说明文档)。

NumPy:http://www.scipy-lectures.org/intro/numpy/operations.html
Theano:http://deeplearning.net/software/theano/library/tensor/basic.html
TensorFlow:https://www.tensorflow.org/api_docs/python/math_ops/

3. 计算图(Computation Graph)

有了张量和基于张量的各种操作之后,下一步就是将各种操作整合起来,输出我们需要的结果。随着操作种类和数量的增多,管理起来就变得十分困难,各操作之间的关系变得比较难以理清,有可能引发各种意想不到的问题,包括多个操作之间应该并行还是顺次执行,如何协同各种不同的底层设备,以及如何避免各种类型的冗余操作等等。这些问题有可能拉低整个深度学习网络的运行效率或者引入不必要的Bug,而计算图正是为解决这一问题产生的。

4. 自动微分(Automatic Differentiation)工具

计算图带来的另一个好处是让模型训练阶段的梯度计算变得模块化且更为便捷,也就是自动微分法。正如前面提到的,我们可以将神经网络视为由许多非线性过程组成的一个复杂的函数体,而计算图则以模块化的方式完整表征了这一函数体的内部逻辑关系,因此微分这一复杂函数体,即求取模型梯度的方法就变成了在计算图中简单地从输入到输出进行一次完整遍历的过程。与自动微分对应,业内更传统的做法是符号微分。

符号微分即常见的求导分析。针对一些非线性过程(如修正线性单元ReLU)或者大规模的问题,使用符号微分法的成本往往非常高昂,有时甚至不可行(即不可微)。因此,以上述迭代式的自动微分法求解模型梯度已经被广泛采用。并且由于自动微分可以成功应对一些符号微分不适用的场景,目前许多计算图程序包(例如Computation Graph Toolkit)都已经预先实现了自动微分。
另外,由于每个节点处的导数只能相对于其相邻节点计算,因此实现了自动微分的模块一般都可以直接加入任意的操作类中,当然也可以被上层的微分大模块直接调用。

5. BLAS、cuBLAS、cuDNN等拓展包

现在,通过上述所有模块,我们已经可以搭建一个全功能的深度学习框架:将待处理数据转换为张量,针对张量施加各种需要的操作,通过自动微分对模型展开训练,然后得到输出结果开始测试。这时还缺什么呢?答案是运算效率。
一般的BLAS库只是针对普通的CPU场景进行了优化,但目前大部分的深度学习模型都已经开始采用并行GPU的运算模式,因此利用诸如NVIDIA推出的针对GPU优化的cuBLAS和cuDNN等更具有针对性的库可能是更好的选择。

2.2 Tensorflow、Caffe、Pytorch与Keras主流深度学习库总结,主要是使用方法的介绍

https://blog.csdn.net/Vensmallzeng/article/details/100114636?utm_medium=distribute.pc_relevant.none-task-blog-OPENSEARCH-2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-2

Pytorch是一个动态的框架,而TensorFlow是一个静态的框架,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值