深度学习框架是当前人工智能领域业界公认的最重要的基础设施软件,也被称作AI领域的操作系统,上承算法和应用,下接硬件芯片。深度学习框架技术栈覆盖理论算法、编译器、分布式系统、异构计算等硬核技术。
OneFlow 是世界范围内唯一一款由初创企业开源的通用深度学习框架,由国内创业团队一流科技研发,是深度学习框架事实工业标准的最有力竞争者之一。
本期 “开源软件开发” 课程介绍国产开源深度学习框架OneFlow的开源历程,希望对深度学习框架感兴趣的朋友可以参与OneFlow社区,与优秀的国产开源项目共同成长。
1、为什么研发OneFlow深度学习框架?
软件平台不仅要解决眼前的需求,更要面向未来的需求。现有的软件平台技术方案大同小异,对于单设备或多设备数据并行这种简单场景的支持已经非常优秀,但从BERT模型开始,GPT-2、GPT-3等超大模型成为常见现象或者具有复杂拓扑结构的神经网络时,易用性和效率都大打折扣,有这种需求的工业级应用只好使用定制化解决方案(譬如英伟达的Megatron),而无法使用通用软件平台实现。