Tensorflow RDMA知识积累

本文详细介绍了Tensorflow中RDMA verbs的使用,包括如何编译启用RDMA的Tensorflow,以及RDMA的设计原理。设计基于TensorFlow r1.0,使用RDMA连接传递tensor,以提高效率。通过RDMA通道、缓冲区和rendezvous管理器管理tensor的发送和接收操作。文章还讨论了潜在的优化策略,如避免TensorProto转换和设备内存直接访问。
摘要由CSDN通过智能技术生成

Tensorflow RDMA verbs详解

如何编译和启用RDMA的Tensorflow

  1. 按照常规的TF编译说明进行操作。 在配置步骤中,如果您想要支持基于ibverbs的RDMA,请回答此问题:
Do you wish to build TensorFlow with VERBS-RDMA support [y/N]

要打开RDMA连接,请在服务器定义中添加协议“grpc + verbs”:

server=tf.train.Server(cluster, job_name="local", task_index=0, protocol='grpc+verbs') # default protocol is 'grpc'

概要

该设计基于TensorFlow r1.0。在服务器之间添加一个RDMA路径用于tensor传递(权重,梯度等)。现有的gRPC路径保留并负责“管理”任务,如设置RDMA路径,交换计算图等。

在服务器设置期间,创建一个RDMA管理器来管理低级RDMA组件,如RDMA通道和RDMA适配器,创建一个RDMA会合管理器来监视服务器之间的发送/重启操作。按照分布式TensorFlow设计理念,发送操作是被动的,即仅在本地输出表中放置tensor。而实际启动tensor传递的是接收操作。

TensorFlow为要发送或接收的tensor动态分配内存。这对于需要固定存储器的RDMA操作来说是困难的。可以使用两种补救措施:存储器被

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值