Yann LeCun最新文章:自监督学习的统一框架

Facebook AI发布自监督模型SEER,通过学习10亿未标注Instagram图片,实现了84.2%的图像识别准确率,展现自监督学习在计算机视觉任务上的潜力。自监督学习被Yann LeCun和Ishan Misra视为理解和模拟人类智能的关键,它允许系统从大量无标签数据中学习,构建类似人类的普遍知识。尽管在CV领域仍面临挑战,但自监督学习已展现出在NLP领域的显著效果,并且在预训练模型如BERT中取得成功。未来的研究将探索如何更好地处理预测中的不确定性,以及发展非对比自监督学习方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:Yann LeCun、Ishan Misra

编译:梦佳、贾伟

Facebook 今天宣布了一项重大突破: Facebook 的 自监督AI 模型 SEER 能够在没有人类帮助的情况下,从10亿张随机的、未标记的公共 Instagram 图片中学习,并且从这些信息中能够识别和分类照片中的主要对象,准确率达到84.2% ,比现有的自监督系统高出一个百分点。

 

Facebook AI 首席科学家 Yann Lecun 表示,希望人工智能能够像人类婴儿时期那样,通过观察前人的东西进行学习。

 

Facebook 在博客中写道: “ SEER 的表现表明,自监督学习能够在现实环境中胜任计算机视觉任务。这是一个重大突破,最终为未来更加灵活、准确和适应性更强的计算机视觉模型铺设了道路。”

由此,Yann LeCun和研究员 Ishan Misra撰文 Self-supervised learning: the dark matter of intelligence对自监督在NLP以及CV中的应用给出了框架性的解读。以下为全文内容。

 

近年来,人工智能领域,在开发人工智能系统方面取得了巨大进展,这些系统可以从大量精心标记的数据中学习。这种监督学习范式在训练专门的模型方面性能极好,在它们训练的任务上往往能够获得极高的性能表现。

 

但不幸的是,仅靠监督学习,人工智能领域难以走远。

 

监督学习在构建更智能的通用模型上存在本质上的瓶颈,例如处理多任务问题,或者通过大量存在的无标签数据学习新技能等。实际上,我们不可能对世界上一切事物都做标注;即使可以标注,但数量也可能并不足够,例如低资源语言翻译任务。

如果人工智能系统能够在训练数据集之外,对现实世界能够有更深入、更细致的理解,显然它们将更有用,最终也将使人工智能更接近人类层面的智能。

 

人类婴儿学习世界运作,主要是通过观察。我们会通过学习物体的持久性、重力等概念,从而形成关于世界上物体的广义预测模型。在随后的人生里,我们不断观察世界,然后对它进行作用,然而再观察作用的效果等等,通过反复尝试,从而建立假设,解释我们的行动如何能够改变我们的环境。

一种有效的假设是,人类和动物的生物智能,主要的成分是由关于世界的普遍知识或常识构成的,这种常识在生物智能中会被默认为自然而存在的背景。但对于人工智能来说,如何构建这种常识却一直是一个开放的挑战难题。在某种程度上,常识正是人工智能的暗物质。

常识可以帮助人们学习新技能,而无需为每项任务做大量的监督训练。

 

例如,我们只需要给小孩子看几张奶牛的图画,他们以后便可以轻松地识别出任何奶牛。相比之下,经过监督学习训练的人工智能系统,则需要许多奶牛的标注图像,即使这样,训练出的模型在一些特殊情况下,依然无法做出准确判断。

 

人类通过 20 个小时的练习,便能够学会驾驶汽车,但人类司机数千小时的数据却无法训练出一个很好的自动驾驶系统。

 

答案很简单:人类借助了他们以前获得的关于世界如何运作的背景知识。

 

我们如何让机器也能这样做呢?

我们认为,自我监督学习(self-supervised learning)是建立这种背景知识和近似人工智能系统中一种常识的最有前途的方法之一。

 

自我监督学习使人工智能系统能够从数量级更大的数据中学习,这对于识别和理解世界更微妙、更不常见的表示模式很重要。

 

长期以来,自我监督学习在推进自然语言处理(NLP)领域取得了巨大成功,包括 Collobert-Weston 2008 model,Word2Vec,GloVE,fastText 以及最近的BERT,RoBERTa,XLM-R等。通过这些方法训练的系统,会比以监督学习的方式训练的系统&#x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值