FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

2021-03-05 19:38:58

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

作者 | 青暮

今天,FAIR发布了两项重要更新,分别是PyTorch 1.8以及10亿参数自监督模型SEER。

根据官方推特,此次更新重点包括:编译器更新、代码优化、科学计算的前端API、管道和模型并行性的大规模训练以及移动端教程。

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

相关链接:
https://pytorch.org/blog/pytorch-1.8-released/

标记数据是稀缺资源,如今很多AI研究人员都在探索可以直接从所提供的任何信息中学习的系统,这些信息包括文本、图像或其他任何类型的数据。

这种学习范式被称为自监督学习,正如Facebook AI首席科学家Yann LeCun所言,这是构建具有背景知识或“常识”的AI,并用于解决远远超出当前AI所能承担任务的最有前途的方法之一。

如今,我们已经看到了自监督在自然语言处理领域取得的重大进步。其中,自监督的超大规模模型通过大量文本上的预训练,在问答、机器翻译、自然语言推理等方面取得了突破。

Facebook AI现在则将自监督学习范式转移到了计算机视觉领域。研究人员开发了SEER(SElf-supERvised)模型,它具有10亿参数,可以从任意随机图像组中学习,而无需标注数据。

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

论文地址:
https://arxiv.org/pdf/2103.01988.pdf?fbclid=
IwAR3cTqfbqIYaaAuwVxZerX0LYVVejxg1qa4p8einaeImb5MNqO6RL2l-tbY

他们使用的训练数据是10亿张随机、未标记和未整理的Instagram图像,通过在这些数据上进行预训练,SEER的性能优于当前的SOTA自监督系统(SimCLRv2),在ImageNet上达到了84.2%的top-1准确率。

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

此外,SEER在下游任务(包括少样本、目标检测、目标分割和图像分类)上也有不错的表现。

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

仅使用ImageNet数据集中的10%的示例进行微调时,SEER在整个数据集上仍达到了77.9%的top-1准确率,这表明它是不错的少样本学习器。如果仅使用带标注的ImageNet示例的1%进行微调,SEER的top-1准确率则为60.5%。

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

目前,FAIR已经开源了用于开发SEER的VISSL库。

GitHub地址:
https://github.com/facebookresearch/vissl

 

1现实世界中的自监督计算机视觉

FAIR表示,他们开发SEER的思路与当前NLP领域的主流路线类似。目前,NLP模型经常使用数万亿个参数和万亿级文本数据集进行预训练,例如BERT、XLNet、GPT-3等。有了更多的输入和更大的模型,下游任务的性能将大大提高,他们预计在计算机视觉中也应如此。

但是,对视觉问题使用自监督不同于对语言进行自监督。对于文本而言,语义概念被分解为离散的单词。但是对于图像,算法必须确定哪个像素属于哪个概念。此外,同一概念在不同图像之间会发生很大变化,例如,以不同姿态站立的猫或从不同角度观察的猫。我们需要观察大量图像以掌握单个概念的变化。

成功地缩放模型以有效处理复杂的高维图像数据需要两个关键组件:1)一种可以从大量随机图像中学习而无需任何元数据或注释的算法,以及2)足够大的卷积网络,以从庞大而复杂的数据中捕获并学习每个视觉概念。FAIR表示,他们在SEER中终于使这种思路成为可能。

SEER将最新的架构家族RegNet与在线自监督训练相结合,以将预训练扩展到数十亿个随机图像和十亿个参数。

FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

 

研究人员利用了一种名为SwAV的新算法,该算法是从FAIR的研究发展到自监督学习的。SwAV通过在线聚类将具有相似视觉概念的图像快速分组,并利用它们的相似性。借助SwAV,能够在自监督学习的基础上进行改进,并且训练时间减少了6倍。

在如此规模的模型训练中,还需要一种在运行时和内存方面都有效的模型架构,而又不影响准确率。幸运的是,FAIR最近在架构设计领域进行的一项创新诞生了名为RegNets的新模型家族,它可以完全满足这些需求。RegNet模型属于ConvNet,能够扩展到数十亿甚至可能是数万亿的参数,并且可以进行优化以适应不同的运行时和内存限制。最后,是VISSL库使SEER成为了可能。

 

2自监督的未来

FAIR表示,自监督学习一直以来都是Facebook AI的关注重点,因为它使机器可以直接从世界上可用的大量信息中学习,而不仅仅是从专门为AI研究创建的训练数据中学习。这将有助于我们构建更普遍适用的AI,快速适应不断变化的环境,并扩展到更多用例。

自监督学习对计算机视觉的未来产生了难以置信的影响,由于消除了对人类注释和元数据的需求,计算机视觉社区可以使用更大和更多样化的数据集,从随机的公共图像中学习,并有可能缓解数据管理中的一些偏见。

自监督学习还可以帮助我们在图像或元数据有限的领域(例如医学成像)中训练专业化模型。无需准备标签,可以更快地创建和部署模型,从而对迅速变化的情况做出更快、更准确的响应。

参考链接:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值