OneFlow深度学习框架

不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow

  • 博客(4)
  • 收藏
  • 关注

转载 OneFlow深度学习框架摘得「AI中国」机器之心年度大奖!

近日,一流科技在2020-2021「AI中国」机器之心人工智能年度奖项评选中摘得多项大奖,包括:机器之心2020“最强开源技术生态 TOP10”;机器之心2020“最具商业价值解决方案TO...

2021-01-19 18:37:08 126

原创 如何简单理解Google 1.6万亿参数的Switch Transformer论文?

Switch Transformer 可以理解成一种如何在训练基于MOE (Mixture of Experts) 的巨模型时“偷工减料”的技巧,但这种“偷工减料”却蕴含了一些新的洞察(insights)。在一般情况下,基于MoE,一个样例进来,会被好几个子网络(expert)处理,这几个子网络的处理结果可以加权求和,每个子网络的权重是通过一个叫router的模块计算出来的(如下图所示)。MoE可以理解成一种模型的集成 (ensemble),根据top k 激活一部分子网络。按照我们对模型集成的经验,一般

2021-01-15 19:06:40 415

原创 “OneFlow U”吴文童:产品和开发者之间是相互作用的

“OneFlow U”是报道OneFlow社区之星的专栏,未来我们将不定期邀请OneFlow社区的优秀开发者分享他们的使用经验、心得体会和故事,欢迎关注!本期“OneFlow U”的嘉宾是...

2021-01-14 19:49:40 119

原创 如何实现一个高效的Softmax CUDA kernel?——OneFlow 性能优化分享

Softmax操作是深度学习模型中最常用的操作之一。在深度学习的分类任务中,网络最后的分类器往往是Softmax + CrossEntropy的组合:尽管当Softmax和CrossEntropy联合使用时,其数学推导可以约简,但还是有很多场景会单独使用Softmax Op。如BERT的Encoder每一层的attention layer中就单独使用了Softmax求解attention的概率分布;GPT-2的attention的multi-head部分也单独使用了Softmax 等等。深度学习框架

2021-01-04 14:18:58 1056 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除