01 # 行业大事件
首个多模态高性能自监督算法data2vec
语音、图像文本全部SOTA
人类似乎对不同的学习模式有着相似的认知,机器也应该如此!
自监督学习能在各种任务中学习到分层特征,并以现实生活中可使用的海量数据作为资源,因此是走向更通用人工智能的一种途径,也是深度学习三巨头之一、图灵奖得主 Yann LeCun 一直推崇的研究方向。
LeCun 认为:相比于强化学习,自监督学习(SSL)可以产生大量反馈,能够预测其输入的任何一部分(如预测视频的未来画面),从而具有广泛的应用前景。
自监督学习通过直接观察环境来进行学习,而非通过有标签的图像、文本、音频和其他数据源进行学习。然而从不同模态(例如图像、文本、音频)中学习的方式存在很大差异。这种差异限制了自监督学习的广泛应用,例如为理解图像而设计的强大算法不能直接应用于文本,因此很难以相同的速度推动多种模态的进展。
现在,MetaAI(原 Facebook AI)提出了一种名为 data2vec 的自监督学习新架构,在多种模态的基准测试中超越了现有 SOTA 方法。