深度学习
相知无悔
这个作者很懒,什么都没留下…
展开
-
超大模型分布式训练DeepSpeed教程
DeepSpeed教程项目链接简介deep speed是微软的新大规模模型分布式训练的工具。专门为训练超大模型而生。号称可以训练10B参数的模型。比目前最好的模型大10倍,训练速度块10倍。兼容pytorch的模型,可以改动最少代码。下图是展示训练bert需要的时间,基本同gpu的数量成线性相关。安装下载code(0.3.0)git clone https://github.com/microsoft/DeepSpeed.git安装python环境需要注意pytroch cud原创 2020-09-20 11:44:20 · 9302 阅读 · 3 评论 -
Big Bird: Transformers for Longer Sequences论文详解
文章目录Big Bird大鸟模型论文要解决问题解决方法随机注意力固定窗口注意力全局注意力复杂度分析实验三种注意力的消融实验。语言模型对比roberta、longformerQA问题中对比longformer长文本分类任务文章摘要任务基因语言模型实验Big Bird大鸟模型论文要解决问题如下图,Transformer模型中,注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时,这个复杂度是不可接受的。一般做法是切成512的块,这种做法损失了块与块之间的信息,例如QA问题中Q必须看到所有A才行原创 2020-09-20 09:44:20 · 3381 阅读 · 0 评论