来了,2023年视觉领域突破性研究有哪些?

编辑 | 啥都会一点的研究生

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

本文只做学术分享,如有侵权,联系删文

回顾2023年,计算机视觉领域有哪些较为突出的研究成果?一起看看吧

SAM(Segment Anything Model)

784fa448fff89ed3ac973c9d0b040ec4.png

SAM 由 Meta AI 开发,是 CV 中分割任务的基础模型,彻底改变了像素级分类,几乎可以分割图像中的任何内容。这一发展为各种数据集的复杂分割任务开辟了新的途径

SAM可根据输入提示(如点或方框)生成高质量的对象遮罩,并可用于为图像中的所有对象生成遮罩。该模型已在一个包含 1100 万张图像和 11 亿个遮罩的数据集上进行过训练,在各种分割任务中都具有很强的零误差性能,放眼2023毫无疑问是top级进展

https://github.com/facebookresearch/segment-anything

Multimodal Large Language Models (LLMs)

29f72aefd391713316bd92f44af3007d.png

像 GPT-4 这样的模型在文本和视觉数据之间架起了桥梁,为人工智能提供了理解和解释复杂的多模态输入的能力。它们在增强人工智能处理文本和视觉线索并对其做出反应的能力方面发挥了至关重要的作用,从而带来了更复杂的人工智能应用

https://openai.com/research/gpt-4

YOLOv8

5d4406d4f0f3935d5bf34e353fda3641.png

YOLO 系列的这一升级版以其更快的速度和更高的精度为物体检测设定了新标准。是一款最先进的 (SOTA) 模型,它在以往 YOLO 版本成功的基础上引入了新的功能和改进,进一步提高了性能和灵活性。YOLOv8 设计快速、准确、易用,是各种物体检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择

https://github.com/ultralytics/ultralytics

DINOv2(Self-supervised Learning Model)

c1b83993197c27049055b30d353d6cca.png
在这里插入图片描述
4c5865c6edc80989b188e49385d0edd2.png

DINOv2 标志着 CV 在自监督学习方面迈出了重要一步,通过减少对大型注释数据集的依赖,DINOv2 展示了自监督方法的潜力,可以用较少的标注图像训练出高质量的模型

https://ai.meta.com/blog/dino-v2-computer-vision-self-supervised-learning/

Text-to-Image (T2I) Models

涉及这方面的模型有很多

  • • Midjourney creations (https://aituts.com/midjourney-versions/)

  • • DALL-E 3 (https://openai.com/dall-e-3)

  • • Stable Diffusion XL (https://stablediffusionxl.com/)

  • • Imagen 2 (https://deepmind.google/technologies/imagen-2/)

  • • ...

这些研究极大地提高了人工智能根据文字描述生成图像的质量和逼真度,促进了数字艺术生成等创造性应用,使人工智能成为艺术家和设计师的宝贵工具

LoRA for CV

12ea5e674220eb243ed2e0033fa11236.png

LoRA 最初是为微调大型语言模型而开发的,后来在 CV 中找到了新的应用。提供了一种灵活高效的方法,可针对特定任务调整现有模型,大大提高了 CV 模型的通用性

https://huggingface.co/blog/lcm_lora

Ego-Exo4D Dataset

e04e519e746e53da717479b1c196e13b.png

Meta 提供的 Ego-Exo4D 数据集代表了视频学习和多模态感知方面的重大进步,提供了丰富的第一人称和第三人称镜头,可以为人类活动识别和其他应用开发更复杂的模型

https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

Text-to-Video (T2V) Models

T2V 模型如

  • • Runway (https://runwayml.com/)

  • • Pika Labs (https://pika.art/)

  • • Emu Video (https://emu-video.metademolab.com/)

通过文本描述创建高质量视频,为人工智能生成内容带来了新的维度。这一创新为娱乐和教育等领域提供了可能性,因为在这些领域动态视觉内容至关重要

Gaussian Splatting for View Synthesis

1c93c7442ee18c889c89b945b7b7b950.png

这项技术代表了视图合成领域的一种新方法,与神经辐射场(NeRFs)等现有方法相比,它在训练时间、延迟和准确性等方面都有所改进,从而重塑了三维渲染的格局

3D Gaussian Splatting 是《3D Gaussian Splatting for Real-Time Radiance Field Rendering》一书中描述的一种光栅化技术,可实时渲染从小图像样本中学习的逼真场景

https://huggingface.co/blog/gaussian-splatting https://huggingface.co/papers/2308.04079

StyleGAN3

5f6f3587ce447f94ff150bd5c0f9d102.png

StyleGAN3 突破了生成模型的界限,尤其是在创建超逼真图像和视频方面。这一进步拓展了生成模型在创建精细逼真的数字艺术和动画方面的能力

https://github.com/NVlabs/stylegan3

以上就是本期的全部内容,我是啥都生,下次再见

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

25889384b4144bc6d541ce399194ee9b.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

31fa17cea42eeb473eb30d4c68b9765e.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

8268bb063f4be8772625fd8bc8049cd8.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

499892a1f13c61135781e7ca8ce6b4ca.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值