图灵奖得主LeCun 推崇的 JEPA 是什么?

最新推荐文章于 2025-03-06 10:26:17 发布

人工智能学家

最新推荐文章于 2025-03-06 10:26:17 发布

阅读量934

点赞数 3

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2650022146&idx=1&sn=cb51889e22f30e9f045a9a2f6dd6b7f3&chksm=8e9b9bedba1b4722f6b7227ae78d5286cb91963c76373675d6adafc3b43b237af5cb8e060733&scene=126&sessionid=0

版权

来源：图灵人工智能

LeCun 发推再推 JEPA：

JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）是我最喜欢的自监督学习元架构，适用于处理连续数据，如图像、视频和音频。

此外LeCun 称 需要澄清的是，JEPA不是Transformer的替代品。事实上，许多JEPA系统都使用了Transformer模块。JEPA是自回归生成架构（如大语言模型，无论是否使用Transformer）的替代方案。

如在V-JEPA中，网络不是自回归的。它使用了两个Transformer架构，一个用于两个编码器，另一个用于预测器。

下面，我们就来介绍下什么是 JEPA👇

在本文中，我们将讨论：

世界模型

LeCun愿景的基础部分是“世界模型”概念，即内部表示世界如何运作。他认为，给模型提供世界的上下文可以改善其结果。

“人类、动物和智能系统使用世界模型的想法可以追溯到心理学以及工程领域如控制和机器人学的几十年前。”

自监督学习

LeCun提出了一种模块化、可配置的架构，用于自主智能，强调开发自监督学习方法，使AI无需大量标注数据就能学习这些世界模型。

下面是自主智能系统架构的详细组件视图：

联合嵌入预测架构 (JEPA) 如何工作？

JEPA 是开发能像人类一样理解和互动的AI的核心元素。它包含了上述关键元素，使系统能够处理不确定性并忽略无关细节，同时保持预测所需的关键信息。

它基于以下元素：

有趣的是，多个JEPA可以组合成多步/循环JEPA，或堆叠成层次化JEPA，以在多个抽象层次和时间尺度上进行预测。

JEPA 可以用来做什么？

根据JEPA架构，Meta AI研究人员与Yann LeCun共同发布了几个专门的模型。它们是什么？

图像联合嵌入预测架构 (I-JEPA) – 图像的JEPA

I-JEPA 于2023年6月提出，是基于JEPA的第一个模型。

I-JEPA是一个非生成性的自监督学习框架，设计用于处理图像。它通过屏蔽图像的一部分并尝试预测这些屏蔽部分来工作：

MC-JEPA (运动-内容联合嵌入预测架构) – 多任务JEPA

MC-JEPA 是另一个JEPA变体，设计用于同时解释视频数据：动态元素（运动）和静态细节（内容），使用共享编码器。它于2023年7月提出。

MC-JEPA 是一个更全面、更强大的视觉表示模型，可用于现实世界中的计算机视觉应用，如自动驾驶、视频监控和活动识别。

视频联合嵌入预测架构 (V-JEPA) – 视频的JEPA

V-JEPA 旨在增强AI对视频内容的理解，这在I-JEPA发布后被标记为一个重要的未来方向。

V-JEPA由两个主要组件组成：

编码器：将输入视频帧转换为高维空间，其中相似特征更靠近。编码器捕捉视频中的重要视觉线索。
预测器：利用编码特征的一个部分来预测另一部分的特征。这种预测基于学习视频中的时间和空间变换，有助于理解运动和随时间的变化。

V-JEPA的设计使其能够以类似于人类学习的方式从视频中学习——观察和预测视觉世界，而不需要显式标注。模型从无监督视频数据到各种视觉任务的泛化能力，使其成为推进机器理解和互动动态视觉环境的强大工具。

JEPA的广泛应用

2024年3月发表的最新论文“学习和利用视觉表示学习中的世界模型[6]”引入了图像世界模型 (IWM) 的概念，并探讨了如何将JEPA架构推广到更广泛的扰动（如颜色抖动、模糊）中，而不仅仅是屏蔽。

Image 8

研究探讨了两种类型的世界模型：

不变模型：识别和保持不同场景中的稳定、不变特征
等变模型：适应输入数据的变化，保持发生的关系和变换

研究发现，通过利用这些世界模型，机器可以更准确地预测和调整视觉变化。这导致了更具弹性和适应性的系统开发。该方法挑战了传统的AI方法，提供了一种在不需要直接监督的情况下提高机器学习模型有效性的新途径。

附加资源

原始模型

1.JEPA首次提议：Yann LeCun关于让AI系统像人类和动物一样学习和推理的愿景[7]

2.I-JEPA: 从图像中进行自监督学习的联合嵌入预测架构[8]

3.MC-JEPA: 用于自监督学习运动和内容特征的联合嵌入预测架构[9]

4.V-JEPA: 迈向高级机器智能的下一步[10]

5.推广JEPA: 视觉表示学习中的学习和利用世界模型[11]

Yann LeCun的演讲

慕尼黑演讲（2023年9月29日）[12]
哈佛演讲（2024年3月28日）[13]

受JEPA启发的模型

我们还为你整理了一份基于JEPA架构的相关模型清单。它们根据应用领域进行分组：

音频和语音应用

A-JEPA[14]：专注于音频数据，使用掩模建模原则以提高音频和语音分类任务中的上下文语义理解。
探索用于通用音频表示学习的联合嵌入预测架构中的设计选择[15]：分析自监督音频表示学习中的掩模策略和样本时长。

视觉和空间数据应用

S-JEA[16]：通过堆叠联合嵌入架构中的层次语义表示，增强视觉表示学习。
DMT-JEPA[17]：聚焦于局部语义理解的图像建模，适用于分类、目标检测和分割。
JEP-KD[18]：将视觉语音识别模型与音频特征对齐，提高视觉语音识别的性能。
Point-JEPA[19]：应用于点云数据，增强空间数据集的效率和表示学习。
Signal-JEPA[20]：专注于EEG信号处理，提高跨数据集的迁移和分类能力。

图表和动态数据应用

Graph-JEPA[21]：第一个用于图表的联合嵌入架构，使用双曲坐标预测子图表示。
ST-JEMA[22]：增强从fMRI数据中学习动态功能连接，专注于高层次语义表示。

时间序列和遥感应用

LaT-PFN[23]：结合时间序列预测和联合嵌入架构，利用相关系列进行稳健的上下文学习。
时间序列JEPA[24]：通过传感器数据中的时空相关性优化有限容量网络的远程控制。
预测梯度更优[25]：利用自监督学习进行SAR自动目标识别，利用梯度特征进行自动目标识别。

评估和方法学研究

LiDAR: 在联合嵌入自监督学习架构中的线性探测性能[26]：引入一种评价联合嵌入自监督学习架构中表示的方法，专注于线性探测性能。

[1]

合作能力: https://www.pnas.org/doi/abs/10.1073/pnas.1101765108?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[2]

演讲1: https://x.com/TheTuringPost/status/1781835268196307296?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[3]

演讲2: https://x.com/TheTuringPost/status/1709190072715886892?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[4]

看不见的猩猩研究: https://journals.sagepub.com/doi/10.1068/p281059?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[5]

无意识盲视: http://www.scholarpedia.org/article/Inattentional_blindness?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[6]

学习和利用视觉表示学习中的世界模型: https://arxiv.org/abs/2403.00504?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[7]

JEPA首次提议：Yann LeCun关于让AI系统像人类和动物一样学习和推理的愿景: https://ai.meta.com/blog/yann-lecun-advances-in-ai-research/?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[8]

I-JEPA: 从图像中进行自监督学习的联合嵌入预测架构: https://arxiv.org/abs/2301.08243?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[9]

MC-JEPA: 用于自监督学习运动和内容特征的联合嵌入预测架构: https://arxiv.org/abs/2307.12698?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[10]

V-JEPA: 迈向高级机器智能的下一步: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[11]

推广JEPA: 视觉表示学习中的学习和利用世界模型: https://arxiv.org/abs/2403.00504?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[12]

慕尼黑演讲（2023年9月29日）: https://x.com/TheTuringPost/status/1709190072715886892?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[13]

哈佛演讲（2024年3月28日）: https://x.com/TheTuringPost/status/1781835268196307296?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[14]

A-JEPA: https://arxiv.org/abs/2311.15830v3?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[15]

探索用于通用音频表示学习的联合嵌入预测架构中的设计选择: https://arxiv.org/abs/2405.08679?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[16]

S-JEA: https://arxiv.org/abs/2305.11701?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[17]

DMT-JEPA: https://arxiv.org/abs/2405.17995?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[18]

JEP-KD: https://arxiv.org/abs/2403.18843?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[19]

Point-JEPA: https://arxiv.org/abs/2404.16432?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[20]

Signal-JEPA: https://arxiv.org/abs/2403.11772?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[21]

Graph-JEPA: https://arxiv.org/abs/2309.16014?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[22]

ST-JEMA: https://arxiv.org/abs/2403.06432?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[23]

LaT-PFN: https://arxiv.org/abs/2405.10093?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[24]

时间序列JEPA: https://arxiv.org/abs/2406.04853?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[25]

预测梯度更优: https://arxiv.org/abs/2311.15153?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

[26]

LiDAR: 在联合嵌入自监督学习架构中的线性探测性能: https://arxiv.org/abs/2312.04000?utm_source=www.turingpost.com&utm_medium=referral&utm_campaign=topic-4-what-is-jepa

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告（94页）

52. IQM ：2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值（58页）

55. 2023-2024世界基础设施监测报告

56. 世界银行：2024世界发展报告，中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会：《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康：2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告（80页）

63. 国家互联网信息办公室：国家信息化发展报告2023年110页

64. 埃森哲：2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院：2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会：《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询：2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术：前景、危险和可能性》45页报告

71. 英国皇家学会报告：人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所：2024世界技趋势报告（980页）

73. 面向大规模脉冲神经网络：全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础：从经济学到不对称战争》2024最新94页报告

76. CBInsights：2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院：数据管理和使用：21 世纪的治理（2024），99页

78. 兰德智库：展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织：2024年世界知识产权报告：让创新政策促进发展

80. 全球灾难风险研究所：评估大型语言模型接管灾难的风险

81. 牛津马丁学院：人工智能风险国际科学评估的未来

82. 联合国贸易和发展署：2024世界投资报告

83. 兰德公司：人工智能军事应用的新风险和机遇

84. 英国皇家学会：AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论：从中国到世界从陆地到海洋-240902，98页

86. 中国信通院发布《大模型落地路线图研究报告（2024年）》

87. 星河智源：2024年无人驾驶技术全景报告35页

88. 星河智源：2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论：特斯拉领衔人形机器人的从1到N

90. 兰德：展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡：2024困难点：驾驭能源转型的物理现实（196页）

93. 《麻省理工科技评论》万字长文：什么是人工智能？

94. 软件与服务行业：从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院：中国数字经济发展研究报告2024年82页

96. CB Insights：2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能：全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准（8项）汇编

100. 麦肯锡2024技术趋势展望报告100页

上下滑动查看更多