Tensorflow学习

最新推荐文章于 2024-04-07 19:48:22 发布

smartcat2010

最新推荐文章于 2024-04-07 19:48:22 发布

阅读量578

点赞数

分类专栏：大数据系统

本文链接：https://blog.csdn.net/smartcat2010/article/details/58711159

版权

大数据系统专栏收录该内容

35 篇文章 2 订阅

订阅专栏

从系统和代码实现角度解析TensorFlow的内部实现原理

架构图：

代码组织结构图：

Tensorflow/core目录包含了TF核心模块代码。

public: API接口头文件目录，用于外部接口调用的API定义，主要是session.h 和tensor_c_api.h。
client: API接口实现文件目录。
platform: OS系统相关接口文件，如file system, env等。
protobuf: 均为.proto文件，用于数据传输时的结构序列化.
common_runtime: 公共运行库，包含session, executor, threadpool, rendezvous, memory管理, 设备分配算法等。
distributed_runtime: 分布式执行模块，如rpc session, rpc master, rpc worker, graph manager。
framework: 包含基础功能模块，如log, memory, tensor
graph: 计算流图相关操作，如construct, partition, optimize, execute等
kernels: 核心Op，如matmul, conv2d, argmax, batch_norm等
lib: 公共基础库，如gif、gtl(google模板库)、hash、histogram等。
ops: 基本ops运算，ops梯度运算，io相关的ops，控制流和数据流操作
Tensorflow/stream_executor目录是并行计算框架，由google stream executor团队开发。
Tensorflow/contrib目录是contributor开发目录。
Tensroflow/python目录是python API客户端脚本。
Tensorflow/tensorboard目录是可视化分析工具，不仅可以模型可视化，还可以监控模型参数变化。
third_party目录是TF第三方依赖库。
eigen3: eigen矩阵运算库，TF基础ops调用
gpus: 封装了cuda/cudnn编程库

2.1. Tensor

Matrix表示二维线性映射，Tensor表示多维线性映射，Tensor是对Matrix的泛化，可以表示1-dim、2-dim、N-dim的高维空间

2.2. 符号式编程

编程模式通常分为命令式编程（imperative style programs）和符号式编程（symbolic style programs）。

命令式编程容易理解和调试，命令语句基本没有优化，按原有逻辑执行。符号式编程涉及较多的嵌入和优化，不容易理解和调试，但运行速度有同比提升。

这两种编程模式在实际中都有应用，Torch是典型的命令式风格，caffe、theano、mxnet和Tensorflow都使用了符号式编程。其中caffe、mxnet采用了两种编程模式混合的方法，而Tensorflow是完全采用了符号式编程，Theano和Tensorflow的编程模式更相近。

命令式编程是常见的编程模式，编程语言如python/C++都采用命令式编程。命令式编程明确输入变量，并根据程序逻辑逐步运算，这种模式非常在调试程序时进行单步跟踪，分析中间变量。

符号式编程将计算过程抽象为计算图，计算流图可以方便的描述计算过程，所有输入节点、运算节点、输出节点均符号化处理。计算图通过建立输入节点到输出节点的传递闭包，从输入节点出发，沿着传递闭包完成数值计算和数据流动，直到达到输出节点。这个过程经过计算图优化，以数据（计算）流方式完成，节省内存空间使用，计算速度快，但不适合程序调试，通常不用于编程语言中

mutation的概念？？

2.3. 梯度计算

每一个正向计算节点对应一个隐式梯度计算节点。

反向计算限制了符号编程中内存空间复用的优势，因为在正向计算中的计算数据在反向计算中也可能要用到。从这一点上讲，粗粒度的计算节点比细粒度的计算节点更有优势，而TF大部分为细粒度操作，虽然灵活性很强，但细粒度操作涉及到更多的优化方案，在工程实现上开销较大，不及粗粒度简单直接。在神经网络模型中，TF将逐步侧重粗粒度运算。

2.4 控制流