2024年,视觉人工智能(Visual AI)不仅取得了进步,更重新定义了机器感知、解读以及改变我们周围世界的方式。在这一年里,图像变成了答案,视频演变成了实时洞察,机器以曾经被认为不可能达到的精准度“观察”世界。无论是通过开创性的开源贡献、从二维到三维理解的快速跨越,还是视觉语言模型(VLMs)的爆发式发展,视觉人工智能都占据了舞台中心。
从元(Meta)公司的SAM2重塑目标分割,到人工智能驱动的三维重建绘制人体及地球图像,2024年的创新成果不仅是技术上的胜利,更是社会变革的推动者。农民能用更少的损耗种植出更多粮食,医生能够更早发现疾病从而挽救生命,城市变得更智能、更安全、更高效。每一个像素、每一帧画面以及每一个数据点都成为了推动人类进步的工具。
然而,这不仅仅是对诸多突破的回顾,更是对它们之于未来意义的颂扬——视觉人工智能如何让机器不仅能观察,还能去理解并采取行动。回顾2024年,显而易见的是,视觉不再仅仅是人工智能的一个组成部分,它已然成为了人工智能最具变革性的力量。
额外福利,读到最后可以看到对2025年将会如何变得更好的预测哦!
视觉人工智能发展的引擎:开源
过去一年里,开源对机器学习生态系统带来的改变之大令我十分震惊。从架上取下一个模型并根据自身用例对其进行微调从未如此容易,这为任何项目都节省了大量开发时间。模型只是开源为视觉人工智能铺平道路的方式之一,而且可以说还不是最重要的方式。让我们来回顾一下今年视觉人工智能领域那些最了不起的开源贡献吧。
元(Meta)公司的SAM2
说到模型,很难否认如今在视觉人工智能领域存在比元(Meta)公司强大的分割模型更具影响力的开源模型。有诸多原因可以解释为何这个模型正在多方面改变着该领域。首先也是最重要的一点,从表面上看,它本身就是一个令人惊叹的模型。它能够快速加快大多数数据集的标注流程,这一价值不可估量。如今,投入到标注工作中的时间、精力和资金之多怎么强调都不为过。这是一个困扰着从最小的初创企业到最大的企业的问题。借助SAM2,能够大幅缩短标注时间,使得资源可以在模型开发周期中得到更好的分配,而不是将大量资源都倾注在标注环节。
SAM2做出的另一重大贡献在于,我们终于摆脱了逐帧视频分析的方式。整个计算机视觉领域一直在等待某项突破性研究成果,以期最终摆脱以往的算法。就在几个月前,行业标准还是使用传统的计算机视觉和诸如匈牙利算法之类的统计方法。终于,我们能够智能化地逐帧分析,并利用时间上下文来引导模型推理,这种方式显得现代且与时俱进。虽说要在视频的上下文窗口中达到与大型语言模型(LLMs)处理文本时相同的性能,我们还有很长的路要走,但曾经看似不可逾越的差距终于在逐渐缩小。
元(Meta)公司SAM2示例
最后一点更多的是对贯穿2024年的一些既有想法的肯定,即该领域的大公司仍在推动视觉人工智能的普及化。元(Meta)公司本可以轻易地不发布像SAM2这样的模型,而是将其留作内部使用,以此在竞争中建立优势,但它却继续以一种非常公开的方式支持开源。随着时间推移,对于那些不再需要花费大量资金来标注数据集的研究人员和小团队来说,标注工作只会变得越来越容易、越来越容易获取。展望2025年,人们不禁会想:我们所熟知的标注工作还要多久才会消亡呢?链接
YOLOv9 - 11以及Ultralytics公司的持续崛起
如果你不熟悉以往的YOLO模型,那值得简单回顾一下它的历史。首个YOLO模型于2015年由约瑟夫·雷德蒙(Joseph Redmon)发布。随后,他和其他人又相继创建了YOLOv2和YOLOv3,之后便停止了进一步开发。然而,2020年YOLOv4发布时,由于作者不同,视觉人工智能领域对此产生了困惑。当时该领域还处于起步阶段,人们围绕命名规范以及是否能仅因添加了改进内容就宣称采用某一模型架构名称等问题争论不休。
后来,Ultralytics公司出现了,它决定另辟蹊径,发布了YOLOv5,而且没有相关论文。相反,其新的GitHub代码库便于进行训练和部署,一经推出便大获成功,迅速成为了最受欢迎的模型之一,更重要的是,它也是最易用的模型之一。从那以后,这种模式延续了下来,研究人员发表论文对YOLO架构进行改进,推出了YOLOv6、YOLOv7、YOLOv9和YOLOv10等模型,而Ultralytics公司则创建了YOLOv8和YOLOv11,它们更易于使用,并且针对不同应用场景更加灵活。
尽管多年来一直存在争议,有人指责它们是在借助他人的成功获利,但不可否认的是,Ultralytics公司致力于让视觉人工智能变得简单易用且人人可及,同时又不牺牲性能。我可以想象,该领域有多少新成员最初接触目标检测就是从Ultralytics公司的产品开始的。该公司开发的开源库让模型训练变得轻而易举,只需几行代码就能训练出性能最佳的模型之一。除此之外,通过提供每种模型的多种版本,从微型模型到超大模型,开发者很容易就能找到合适的模型。近期的更新甚至将其支持的任务从目标检测扩展到了诸如分割、姿态估计以及定向边界框等领域!
开发者总是希望进行开发创作。通过同时迎合大型企业和业余爱好者的需求,Ultralytics库正带着巨大的发展势头迈向2025年。
助力视觉人工智能运行的库
几乎每个人都听说过OpenCV、PyTorch和Torchvision等库。但其他一些库也取得了令人惊叹的巨大进步,它们能够支持新的任务,进一步推动了研究发展。要感谢每一个项目以及数千名为整个社区变得更好做出贡献的开发者是不可能的。MedSAM2一直在助力将SAM2的卓越性能引入医学领域,用于在各种医学成像方法中对器官进行分割。Rerun使得为空间人工智能和具身人工智能传输多模态数据变得前所未有的容易。
正在运行的Rerun
然而,有一小部分库赋能了视觉人工智能中一个呈爆发式增长的领域,它们不仅可能改变计算机视觉,甚至可能改变我们所熟知的人工智能。
从二维到三维的变革
2024年,视觉人工智能领域热衷于三维相关工作,借助PyTorch3D等库的发展,达到了我们此前从未想象过的三维高度。无论是在学术界还是工业界都取得了惊人的进展,以下是2024年让三维变得与众不同的一些主要亮点。
神经辐射场(NeRFs)与高斯溅射(Gaussian Splatting)
早在2020年,当《神经辐射场:将场景表示为用于视图合成的神经辐射场》(NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis)这篇论文发表时,我们就首次接触到了神经辐射场(NeRF)相关内容,它震撼了整个三维领域。神经辐射场(NeRF)是一种用五个维度(即x、y、z以及观察方向θ、φ)来表示三维场景的方法。视觉人工智能领域很快采纳了这一方法,将其作为一种令人兴奋的三维重建方式,三维重建旨在根据一系列图像来重建一个场景。通过巧妙的摄影测量法和机器学习,其效果令人惊叹。但只有一个问题:它们的速度极慢。神经辐射场(NeRF)不仅需要强大的图形处理器(GPU)来进行训练,而且查看时同样需要。其重建的准确性很高,但在实际应用场景中的可用性却很低,所以该领域开始寻找其他替代方法。
2023年引入的高斯溅射(Gaussian Splatting)提供了一个很有前景的替代方案。通过利用三维高斯函数,人们可以在无需大量计算的情况下渲染场景。准确性仍然依赖于强大的神经网络,但一旦渲染完成,其效率和优化程度会显著提高。刚推出时,研究人员对这种新方法是否会取代神经辐射场(NeRF)持犹豫和怀疑态度。然而,在2024年,研究人员让高斯溅射(Gaussian Splatting)成为了每场会议的热议话题,其快速的速度和灵活性彻底改变了诸多行业。现在,我们可以利用OmniRe为自动驾驶汽车创建三维世界用于模拟,利用GAGAvatar生成精确的头部三维虚拟形象,或者利用DreamScene360仅凭文本就能创建场景。如需更多关于高斯溅射(Gaussian Splats)的资源,可以查看这个很棒的代码库链接。
DreamScene360提示示例
自动驾驶竞赛仍在继续
没有哪个行业能像自动驾驶汽车领域那样在三维视觉人工智能领域占据主导地位。令人兴奋的是,该领域的领军企业,如Waymo、特斯拉(Tesla)、Wayve等,在解决自动驾驶问题上都有着截然不同的方法。而且我们也不清楚谁的方法会是正确的!我们所知道的是,它们在过去一年里所做的工作令人惊叹,以下是相关工作的简要概述。
Waymo在其车辆的安全性和理解能力方面都取得了令人瞩目的进展。仅今年就发表了14篇关于安全性的论文,Waymo致力于倾听最严厉的批评意见,并力求做得更好。在人们对Waymo汽车如何应对建筑工地表示担忧后,他们立即投入资源解决这一问题。另一个担忧是它们如何处理像自行车和滑板车这类小型交通工具。看看这个视频吧:
这个例子可能是迄今为止自动驾驶汽车领域最令人印象深刻的视频之一。我预计随着Waymo开始扩张,我们将会看到更多令人惊叹的案例。
特斯拉(Tesla)则一直对自己的情况守口如瓶,始终坚持仅使用摄像头的传感器系统。在高级驾驶辅助系统(ADAS)/自动驾驶(AV)领域,很多人都怀疑如果没有激光雷达(LIDAR)/雷达(RADAR)传感器,这是否可行,甚至是否安全。只有时间能给出答案。特斯拉确实在其“我们,机器人(We, Robot)”活动中宣布了未来将推出Robotaxi和Robovan的计划,这彰显了他们对自动驾驶汽车的愿景。
特斯拉(Tesla)Robovan
Wayve一直致力于公开其大部分研究成果,发布了他们的LINGO模型,这些模型利用图像、驾驶数据以及语言来解释驾驶场景中的因果因素、加速训练,并使驾驶行为能适应新环境。语言还可用于模型自省,我们可以向驾驶模型询问其驾驶决策。这为通过对话与自动驾驶系统进行交互开辟了新的可能性,乘客可以询问该技术正在做什么以及为什么这么做。视觉语言模型展现出了对未来发展的巨大潜力,但它们究竟是什么呢?
借助视觉语言模型扩展人工智能
在回顾2024年所取得的成就时,2025年最令人兴奋的前景之一就是视觉语言模型(VLMs)在视觉人工智能领域的进一步应用。像佛罗伦萨2(Florence 2)、GPT4o以及最近发布的双子座2(Gemini 2)等模型都取得了重大进展。这些模型正变得越来越智能,涵盖了不同类型的知识、语言和模态。以下是双子座(Gemini)最新版本的一个示例:
双子座(Gemini)的“星际计划(Project Astral)”
我们正处在视觉语言模型(VLMs)的“ChatGPT时刻”的边缘。当下人们还不会在公共场合拿着手机提问,但2025年视觉语言模型(VLMs)对视觉人工智能的意义充满了希望。希望到2025年底,结合像SAM2这样的工具,视觉语言模型(VLMs)能够减少90%的人工标注工作。不仅如此,正如我们在Wayve案例中看到的那样,我们可以利用这些模型更好地了解模型做出决策的原因,从而提高安全性和透明度,缩小人类与人工智能交互之间的差距。视觉语言模型(VLMs)的爆发并非2025年的唯一预测,看看我对接下来的其他预测吧!
2024年的遗产与未来展望
过去的一年对视觉人工智能来说至关重要。该领域对开源的持续投入使其飞速发展,达到了曾经认为不可能的高度。鉴于三维和视觉语言模型(VLMs)正处于上升态势,2025年有望成为令人激动的一年。以下是我对明年的预测:
- 从二维转向三维。许多此前以二维形式存在的任务或应用之所以如此,只是因为在三维情况下实现的延迟或准确性达不到要求。随着许多目标检测、分割以及视觉理解任务从像素层面转向体素层面,这种情况将会改变。
- 视觉语言模型(VLMs)迎来它们的“ChatGPT时刻”。无论是询问模型你手臂上的痣是什么情况,还是如何去除衬衫上的污渍,人们每天都会使用视觉语言模型(VLMs)来帮助自己。
- 开源推动创新。视觉人工智能创新领域最优秀、最杰出的成果将继续以开源的形式呈现,依托于这个本就人才济济且不断发展壮大的社区。
- 我们所熟知的标注工作将消亡。逐帧绘制边界框的日子将一去不复返。新的视频处理模型和新的视觉语言模型(VLMs)将使外包标注工作再也没有必要。