Tensorflow学习

从系统和代码实现角度解析TensorFlow的内部实现原理

架构图:

 

代码组织结构图:

 

Tensorflow/core目录包含了TF核心模块代码。

  • public: API接口头文件目录,用于外部接口调用的API定义,主要是session.h 和tensor_c_api.h。

  • client: API接口实现文件目录。

  • platform: OS系统相关接口文件,如file system, env等。

  • protobuf: 均为.proto文件,用于数据传输时的结构序列化.

  • common_runtime: 公共运行库,包含session, executor, threadpool, rendezvous, memory管理, 设备分配算法等。

  • distributed_runtime: 分布式执行模块,如rpc session, rpc master, rpc worker, graph manager。

  • framework: 包含基础功能模块,如log, memory, tensor

  • graph: 计算流图相关操作,如construct, partition, optimize, execute等

  • kernels: 核心Op,如matmul, conv2d, argmax, batch_norm等

  • lib: 公共基础库,如gif、gtl(google模板库)、hash、histogram等。

  • ops: 基本ops运算,ops梯度运算,io相关的ops,控制流和数据流操作

  • Tensorflow/stream_executor目录是并行计算框架,由google stream executor团队开发。

  •  Tensorflow/contrib目录是contributor开发目录。

  • Tensroflow/python目录是python API客户端脚本。

  • Tensorflow/tensorboard目录是可视化分析工具,不仅可以模型可视化,还可以监控模型参数变化。

  • third_party目录是TF第三方依赖库。

  • eigen3: eigen矩阵运算库,TF基础ops调用

  • gpus: 封装了cuda/cudnn编程库

2.1. Tensor

Matrix表示二维线性映射,Tensor表示多维线性映射,Tensor是对Matrix的泛化,可以表示1-dim、2-dim、N-dim的高维空间

 

2.2. 符号式编程

 

 

编程模式通常分为命令式编程(imperative style programs)和符号式编程(symbolic style programs)。

命令式编程容易理解和调试,命令语句基本没有优化,按原有逻辑执行。符号式编程涉及较多的嵌入和优化,不容易理解和调试,但运行速度有同比提升。

这两种编程模式在实际中都有应用,Torch是典型的命令式风格,caffe、theano、mxnet和Tensorflow都使用了符号式编程。其中caffe、mxnet采用了两种编程模式混合的方法,而Tensorflow是完全采用了符号式编程,Theano和Tensorflow的编程模式更相近。

命令式编程是常见的编程模式,编程语言如python/C++都采用命令式编程。命令式编程明确输入变量,并根据程序逻辑逐步运算,这种模式非常在调试程序时进行单步跟踪,分析中间变量。

 

符号式编程将计算过程抽象为计算图,计算流图可以方便的描述计算过程,所有输入节点、运算节点、输出节点均符号化处理。计算图通过建立输入节点到输出节点的传递闭包,从输入节点出发,沿着传递闭包完成数值计算和数据流动,直到达到输出节点。这个过程经过计算图优化,以数据(计算)流方式完成,节省内存空间使用,计算速度快,但不适合程序调试,通常不用于编程语言中

mutation的概念??

2.3. 梯度计算

每一个正向计算节点对应一个隐式梯度计算节点。

反向计算限制了符号编程中内存空间复用的优势,因为在正向计算中的计算数据在反向计算中也可能要用到。从这一点上讲,粗粒度的计算节点比细粒度的计算节点更有优势,而TF大部分为细粒度操作,虽然灵活性很强,但细粒度操作涉及到更多的优化方案,在工程实现上开销较大,不及粗粒度简单直接。在神经网络模型中,TF将逐步侧重粗粒度运算。

2.4 控制流

 ???

TF不仅支持逻辑控制,还支持循环控制

 

###################################################################################################

Tensorflow代码解析(二)

3.1 Tensorboard

Tensorboard可以看到模型权重,loss值,的变化曲线;

Tensorboard还可显示模型和反模型的graph图(不太好看懂这种反graph图

3.2 Eigen

该库实现Tensor的存储和运算(CPU端),加速性能类似Intel MKL

Lazy Evaluation: 可以减少中间的临时变量,省内存。由于Eigen默认采用惰性计算,如果要求表达式的值可以使用Tensor::eval()函数。Tensor::eval()函数也是session.run()的底层运算

使用SSE2加速(为啥没使用AVX?)

支持float16(半精度), float32, float64。浮点数格式的图很清晰。浮点数格式 。在Tensorflow的分布式传输中,默认会将float32转换为float16类型。

3.3 内存管理

Block为内存块的描述符;Block之间通过双链表组织;双链表上相邻Block之间指向的内存块地址是连续的,这样释放某块的时候才可以在O(1)时间内合并相邻的Blocks

分配内存时,如何快速找到最合适(大于等于需求,且大的不是太多)的内存块?解决:bin索引结构,每个bin是2^N~2^(N+1)大小内存块的链表;

########################################################

in-graph和between-graph的区别

前者适合单机多卡;后者适合多机单卡/多机多卡;

########################################################

多机训练

tensorflow自带parameter-server;worker负责输入数据得到梯度g;server负责用梯度g更新参数w;支持同步/异步这2种模式;

如果有infiniband,则可以剥离grpc通信层,加上CUDA-aware-MPI,速度更快;

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值