TensorFlow在AI并行计算集群环境上安装与使用

最新推荐文章于 2025-04-09 10:36:42 发布

技术瘾君子1573

最新推荐文章于 2025-04-09 10:36:42 发布

阅读量824

点赞数 10

分类专栏：人工智能&深度学习&机器学习 Linux并行计算&HPC高性能计算文章标签： tensorflow 人工智能 GPU

本文链接：https://blog.csdn.net/qq_27815483/article/details/140014869

版权

一、软件简介

TensorFlow™是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machine learning）算法的编程实现，其前身是谷歌的神经网络算法库DistBelief。Tensorflow拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于谷歌内部的产品开发和各领域的科学研究 [1-2] 。TensorFlow由谷歌人工智能团队谷歌大脑（Google Brain）开发和维护，拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类应用程序接口（Application Programming Interface, API）。自2015年11月9日起，TensorFlow依据阿帕奇授权协议（Apache 2.0 open source license）开放源代码。

1.1、组件与工作原理

1）核心组件

TensorFlow的代码结构分布式TensorFlow的核心组件（core runtime）包括：分发中心（distributed master）、执行器（dataflow executor/worker service）、内核应用（kernel implementation）和最底端的设备层（device layer）/网络层（networking layer）。分发中心从输入的数据流图中剪取子图（subgraph），将其划分为操作片段并启动执行器。分发中心处理数据流图时会进行预设定的操作优化，包括公共子表达式消去（common subexpression elimination）、常量折叠（constant folding）等。执行器负责图操作（graph operation）在进程和设备中的运行、收发其它执行器的结果。分布式TensorFlow拥有参数器（parameter server）以汇总和更新其它执行器返回的模型参数。执行器在调度本地设备时会选择进行并行计算和GPU加速 [13] 。内核应用负责单一的图操作，包括数学计算、数组操作（array manipulation）、控制流（control flow）和状态管理操作（state management operations）。内核应用使用Eigen执行张量的并行计算、cuDNN库等执行GPU加速、gemmlowp执行低数值精度计算，此外用户可以在内核应用中注册注册额外的内核（fused kernels）以提升基础操作，例如激励函数和其梯度计算的运行效率 [13] 。单进程版本的TensorFlow没有分发中心和执行器，而是使用特殊的会话应用（Session implementation）联系本地设备。TensorFlow的C语言API是核心组件和用户代码的分界，其它组件/API均通过C语言API与核心组件进行交互。

2）低阶API

张量（tf.Tensor）

张量是TensorFlow的核心数据单位，在本质上是一个任意维的数组。可用的张量类型包括常数、变量、张量占位符和稀疏张量。张量的秩是它的维数，而它的形状是一个整数元组，指定了数组中每个维度的长度。张量按NumPy数组的方式进行切片和重构。张量有23种数据类型，包括4类浮点实数、2类浮点复数、13类整数、逻辑、字符串和两个特殊类型，数据类型之间可以互相转换。TensorFlow中的张量是数据流图中的单位，可以不具有值，但在图构建完毕后可以获取其中任意张量的值，该过程被称为“评估（evaluate）。TensorFlow无法直接评估在函数内部或控制流结构内部定义的张量。如果张量取决于队列中的值，那么只有在某个项加入队列后才能评估。

变量（tf.Variable）

变量是可以通过操作改变取值的特殊张量。变量必须先初始化后才可使用，低阶API中定义的变量必须明确初始化，高阶API例如Keras会自动对变量进行初始化。TensorFlow可以在tf.Session开始时一次性初始化所有变量，对自行初始化变量，在tf.Variable上运行的tf.get_variable可以在定义变量的同时指定初始化器

Tensorflow提供变量集合以储存不同类型的变量，默认的变量集合包括：

本地变量：tf.GraphKeys.LOCAL_VARIABLES
全局变量：tf.GraphKeys.GLOBAL_VARIABLES
训练梯度变量：tf.GraphKeys.TRAINABLE_VARIABLES

数据流图（tf.Graph）和会话（tf.Session）

TensorFlow在数据流编程下运行，具体地，使用数据流图（tf.Graph）表示计算指令间的依赖关系，随后依据图创建会话（tf.Session）并运行图的各个部分。tf.Graph包含了图结构与图集合两类相关信息，其中图结构包含图的节点（tf.Operation）和边缘（张量）对象，表示各个操作组合在一起的方式，但不规定它们的使用方式，类似于汇编代码；图集合是在tf.Graph中存储元数据集合的通用机制，即对象列表与键（tf.GraphKeys）的关联。例如当用户创建变量时，系统将其加入变量集合，并在后续操作中使用变量集合作为默认参数。

构建tf.Graph时将节点和边缘对象加入图中不会触发计算，图构建完成后将计算部分分流给tf.Session实现计算。tf.Session拥有物理资源，通常与Python的with代码块中使用，在离开代码块后释放资源。在不使用with代码块的情况下创建tf.Session，应在完成会话时明确调用tf.Session.close结束进程。调用Session.run创建的中间张量会在调用结束时或结束之前释放。tf.Session.run是运行节点对象和评估张量的主要方式，tf.Session.run需要指定fetch并提供供给数据（feed）字典，用户也可以指定其它选项以监督会话的运行。

保存和恢复

TensorFlow的低阶API可以保存模型和学习得到的变量，对其进行恢复后可以无需初始化直接使用。对张量的保存和恢复使用tf.train.Saver