FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？-CSDN博客

2021-03-05 19:38:58

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

作者 | 青暮

今天，FAIR发布了两项重要更新，分别是PyTorch 1.8以及10亿参数自监督模型SEER。

根据官方推特，此次更新重点包括：编译器更新、代码优化、科学计算的前端API、管道和模型并行性的大规模训练以及移动端教程。

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

相关链接：
https://pytorch.org/blog/pytorch-1.8-released/

标记数据是稀缺资源，如今很多AI研究人员都在探索可以直接从所提供的任何信息中学习的系统，这些信息包括文本、图像或其他任何类型的数据。

这种学习范式被称为自监督学习，正如Facebook AI首席科学家Yann LeCun所言，这是构建具有背景知识或“常识”的AI，并用于解决远远超出当前AI所能承担任务的最有前途的方法之一。

如今，我们已经看到了自监督在自然语言处理领域取得的重大进步。其中，自监督的超大规模模型通过大量文本上的预训练，在问答、机器翻译、自然语言推理等方面取得了突破。

Facebook AI现在则将自监督学习范式转移到了计算机视觉领域。研究人员开发了SEER（SElf-supERvised）模型，它具有10亿参数，可以从任意随机图像组中学习，而无需标注数据。

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

论文地址：
https://arxiv.org/pdf/2103.01988.pdf?fbclid=
IwAR3cTqfbqIYaaAuwVxZerX0LYVVejxg1qa4p8einaeImb5MNqO6RL2l-tbY

他们使用的训练数据是10亿张随机、未标记和未整理的Instagram图像，通过在这些数据上进行预训练，SEER的性能优于当前的SOTA自监督系统（SimCLRv2），在ImageNet上达到了84.2％的top-1准确率。

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

此外，SEER在下游任务（包括少样本、目标检测、目标分割和图像分类）上也有不错的表现。

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

仅使用ImageNet数据集中的10％的示例进行微调时，SEER在整个数据集上仍达到了77.9％的top-1准确率，这表明它是不错的少样本学习器。如果仅使用带标注的ImageNet示例的1％进行微调，SEER的top-1准确率则为60.5％。

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

目前，FAIR已经开源了用于开发SEER的VISSL库。

GitHub地址：
https://github.com/facebookresearch/vissl

1现实世界中的自监督计算机视觉

FAIR表示，他们开发SEER的思路与当前NLP领域的主流路线类似。目前，NLP模型经常使用数万亿个参数和万亿级文本数据集进行预训练，例如BERT、XLNet、GPT-3等。有了更多的输入和更大的模型，下游任务的性能将大大提高，他们预计在计算机视觉中也应如此。

但是，对视觉问题使用自监督不同于对语言进行自监督。对于文本而言，语义概念被分解为离散的单词。但是对于图像，算法必须确定哪个像素属于哪个概念。此外，同一概念在不同图像之间会发生很大变化，例如，以不同姿态站立的猫或从不同角度观察的猫。我们需要观察大量图像以掌握单个概念的变化。

成功地缩放模型以有效处理复杂的高维图像数据需要两个关键组件：1）一种可以从大量随机图像中学习而无需任何元数据或注释的算法，以及2）足够大的卷积网络，以从庞大而复杂的数据中捕获并学习每个视觉概念。FAIR表示，他们在SEER中终于使这种思路成为可能。

SEER将最新的架构家族RegNet与在线自监督训练相结合，以将预训练扩展到数十亿个随机图像和十亿个参数。

FAIR发布两大更新：PyTorch1.8和一个10亿参数自监督模型，自监督也学GPT-3套路？

研究人员利用了一种名为SwAV的新算法，该算法是从FAIR的研究发展到自监督学习的。SwAV通过在线聚类将具有相似视觉概念的图像快速分组，并利用它们的相似性。借助SwAV，能够在自监督学习的基础上进行改进，并且训练时间减少了6倍。

在如此规模的模型训练中，还需要一种在运行时和内存方面都有效的模型架构，而又不影响准确率。幸运的是，FAIR最近在架构设计领域进行的一项创新诞生了名为RegNets的新模型家族，它可以完全满足这些需求。RegNet模型属于ConvNet，能够扩展到数十亿甚至可能是数万亿的参数，并且可以进行优化以适应不同的运行时和内存限制。最后，是VISSL库使SEER成为了可能。