Tensorflow论文解读

原创已于 2024-07-10 23:38:39 修改 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #neo4j #知识图谱

于 2019-11-15 11:35:36 首次发布

大数据系统同时被 2 个专栏收录

35 篇文章

订阅专栏

深度学习

33 篇文章

订阅专栏

本文深入探讨了TensorFlow在异构分布式系统上的大规模机器学习应用。解析了计算图的节点和边特性，包括数据流控制、模型参数管理、设备调度策略、故障恢复机制以及优化技巧。同时，讨论了如何通过精确的启发式算法和资源管理策略，提高计算效率和内存利用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems

计算图里的node，有0~N个输入，有0~N个输出。计算图里的edge，分为Tensor-edge和Special-edge；Tensor的大小和类型可以在计算图构建时指定或者自动推导出来；Special-edge是控制依赖，没有数据流动。

控制依赖可由用户指定步骤之间的顺序执行依赖关系；也可由tensorflow自动插入，控制并行度，从而控制峰值内存使用量。

模型的参数用Variable类型来表示，具有全局生命周期（内存反复使用不被释放）；

Tensor使用引用计数，到0即可以释放内存；

单设备上执行：每个node维护依赖数，减至0则放入ready队列；

多设备上执行：有Cost Model：估计输入输出占用空间大小，估计操作执行时间长度；可能是按数据量进行粗略估计，也可能根据之前的实际计算测量值来估计；先跑模拟流程：对所有ready的<node,device>，估计其计算时间+通信时间，贪心的选一个最早结束的，调度上去；最后用模拟流程的<node,device>映射关系，去跑实际的graph; 用户也可以指定node的device，或者做范围限制；

跨device的边，被拆成Send和Receive节点；能合并的尽量合并，减少通信次数，减少内存占用次数；

整个流程是去中心化的，master只负责发送一个Run命令，剩下的同步在各个worker和各个device之间做；

故障恢复：所有Variable类型(即模型的参数）都和Save节点和Load节点相关联；每N次iteration就Save一次；恢复的时候一起来就Load一次；