OneFlow深度学习框架交流群讨论精选(一)

OneFlow深度学习框架在模型并行方面进行了优化,通过流水并行技术提高效率,降低了编程和调试难度。相较于TensorFlow和Pytorch,OneFlow为模型并行提供了更优雅的解决方案。此外,OneFlow支持ONNX模型转换,方便从其他框架迁移,并计划开源时提供与Pytorch、TensorFlow对齐的预训练模型。其目标是解决大规模模型的训练问题,使分布式训练更加普及。
摘要由CSDN通过智能技术生成

点击蓝字关注我们

OneFlow 即将开源,“OneFlow 深度学习框架微信交流群”中已经聚集了一大群深度学习理论研究者、工程实践者、知识精英,在OneFlow 开源前讨论对 OneFlow 的期待,以及深度学习框架的未来趋势。 

不少讨论的技术话题我们认为很有价值,我们选择其中有代表性的展示给未能参与讨论的朋友们。

以下内容摘录自2020.7.25OneFlow深度学习框架交流群。


太长不看版本

举个例子,整个神经网络有的层次在一组卡上,另外一些层次在另一组卡上,两组卡以接力的方式协同工作。谷歌有一篇文章 gpipe。是分多个阶段,在设备之间流水执行。 

OneFlow团队通过理论分析证明了在某些特定场景下,流水并行是最优选择,并在OneFlow中应用。

讨论过程:

太长不看版本

模型并行的难度主要在于将模型切分到具体的物理设备上,编程和调试难度都较高,其次模型并行中高效率地实现也很难。 

TensorFlow和Pytorch因为历史包袱的原因,在已有框架下做模型并行,较难有优雅且高效的实现。 

个别后发的厂商,提出了自己的方案解决模型并行问题,包括OneFlow。

讨论过程:

太长不看版本

虽然有越来越多的超大规模模型面世,但是不能断定大模型是趋势。已有框架对大规模模型问题的支持并不理想,往往需要定制框架。OneFlow 想从框架级别解决这类问题,并且认为解决问题的过程中积累的经验,对于非大规模模型问题,也是有益的。 

想从软件角度解决深度学习的算力问题,让大量“一般”的芯片协同起来像一个“超级芯片”那样工作,让分布式训练中的“核武器”平民化。

讨论过程:

(有人举了BERT、GPT等大模型例子) 

太长不看版本

为了方便用户从其它框架到OneFlow的转入转出。OneFlow支持onxx,在一些固定结构的模型上可以直接转化,相关工作还在持续开发。 

OneFlow在开源同时,开放的Model Zoo中会包括一些常见的模型,它们与pytorch、tensorflow均已对齐。预训练模型也会逐步完善。 

与其它框架对标的常见op均已提供,部分少见的op也在完善,并且可以让用户自定义op。

讨论过程:

 

END

本文版权归“Oneflow之窗”所有,如需转载请在文后留言,经允许后方可转载。

转载请在文首注明来源、作者及编辑,文末附上Oneflow二维码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值