自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(148)
  • 收藏
  • 关注

原创 GigaSLAM:基于分层高斯 splatting 的大规模单目 SLAM 技术解析

本文是对论文《GigaSLAM: Large-Scale Monocular SLAM with Hierarchical Gaussian Splats》的深度解读。在计算机视觉领域,单目 RGB 输入下的千米级无界户外 SLAM 是关键挑战,现有方法受限于场景尺度与全局对齐。中科研团队提出的 GigaSLAM,创新采用分层稀疏体素表示,结合度量深度模块与词袋闭环机制,实现高效建图、精准定位与高保真渲染,大幅拓展了高斯 Splatting SLAM 的户外适用范围。

2026-01-07 17:36:07 651

原创 P2PNet:基于点的密集人群计数与定位

本文是对论文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》的深度解读。在人群分析领域,单纯计数已难以满足下游任务需求,现有方法存在中间表示冗余、定位不准等问题。腾讯优图实验室团队提出纯点基框架,设计 nAP 评估指标与 P2PNet 模型,通过一对一匹配策略直接预测头部中心点,实现计数与定位联合优化,取得 SOTA 性能。

2026-01-07 09:43:57 531

原创 WorldSplat:面向自动驾驶的 4D 场景生成与新颖视图合成框架

本文是对论文《WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving》的深度解读。在自动驾驶领域,场景生成与重建的3D一致性、新颖视图合成质量的矛盾是关键挑战。小米汽车与高校团队提出的WorldSplat框架,融合4D感知latent扩散模型与增强扩散网络,生成显式4D高斯表示,实现高保真、时空一致的多轨迹驾驶视频,在基准测试中表现优异。

2026-01-06 09:21:56 958

原创 Gaussian Splatting SLAM:单目实时高保真 3D 重建的突破性进展

本文是对论文《Gaussian Splatting SLAM》的深度解读。在视觉 SLAM 领域,单目 SLAM 的高保真实时重建是核心挑战。帝国理工学院团队的这项研究,首次将 3D 高斯溅射作为唯一 3D 表示形式应用于单目 SLAM,通过解析雅可比矩阵、各向同性正则化等创新,实现 3fps 实时运行,兼顾轨迹估计精度与新颖视图合成质量,还可无缝扩展至 RGB-D 场景。

2026-01-05 11:07:02 1064

原创 MindDrive:基于在线强化学习的自动驾驶视觉 - 语言 - 动作模型

本文是对论文《MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning》的深度解读。在自动驾驶领域,VLA模型依赖模仿学习存在分布偏移与因果混淆问题,在线强化学习应用受限于连续动作空间探索低效。该研究创新提出MindDrive框架,通过双LoRA专家架构实现语言动作动态映射,将探索转化为离散语言决策空间,基于CARLA模拟器完成在线RL训练,以轻量LLM实现优异性能。

2025-12-31 10:58:15 772

原创 OpenMonoGS-SLAM:单目高斯溅射 SLAM 与开放集语义理解的融合突破

本文是对论文《OpenMonoGS-SLAM: Monocular Gaussian Splatting SLAM with Open-set Semantics》的深度解读。在机器人、AR/VR 等领域,如何实现无深度传感器依赖的开放集语义 SLAM 是关键挑战。韩国成均馆大学与延世大学团队提出 OpenMonoGS-SLAM 框架,融合 3D 高斯 splatting 与视觉基础模型,通过语义记忆机制,仅靠单目 RGB 输入实现高精度定位、重建与开放集语义理解。

2025-12-31 09:47:38 638

原创 SVG-IR:空间变化高斯逆渲染,革新新视角合成与重光照技术

本文是对论文《SVG-IR: Spatially-Varying Gaussian Splatting for Inverse Rendering》的深度解读。在计算机图形学逆渲染领域,如何兼顾新视角合成与重光照质量及实时性,是核心挑战。南开大学与南京大学团队提出 SVG-IR 框架,创新空间变化高斯表示与基于物理的间接光照模型,突破传统高斯局限性,实现高质量实时渲染,性能超越主流方法。

2025-12-29 09:39:24 886

原创 MindDrive:融合世界模型与视觉语言模型的端到端自动驾驶框架

本文是对论文《MindDrive: An All-in-One Framework Bridging World Models and Vision-Language Model for End-to-End Autonomous Driving》的深度解读。在端到端自动驾驶领域,轨迹规划中生成与选择失衡是关键挑战。北航等团队提出的 MindDrive 框架,创新整合世界模型与视觉语言模型,通过未来感知轨迹生成器和多目标评估器,实现前瞻性轨迹生成与全面决策推理,显著提升驾驶安全性与合规性。

2025-12-22 10:37:30 887

原创 WeatherGen:基于 Spider Mamba Diffusion 的统一多样化天气 LiDAR 点云生成框架

本文是对论文《WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba Diffusion》的深度解读。在自动驾驶3D感知领域,恶劣天气下LiDAR数据稀缺且采集成本高是核心挑战。相关团队提出的WeatherGen框架,创新性地通过地图映射数据生成器、Spider Mamba 生成器及对比学习控制器,实现了统一、高保真的多样化天气LiDAR数据生成,为下游任务性能提升提供了高效解决方案。

2025-12-19 15:59:36 559

原创 3D Gaussian Splatting:实时辐射场渲染的突破性方案

本文是对论文《3D Gaussian Splatting for Real-Time Radiance Field Rendering》的深度解读。在辐射场渲染领域,如何兼顾高质量、快速训练与实时新视角合成是核心挑战。该研究创新性地提出以各向异性 3D 高斯为场景表示,结合自适应密度控制与瓦片化可微光栅化器,无需神经网络,实现了 SOTA 级渲染质量,且训练时间短、1080p 分辨率下渲染帧率≥30fps。

2025-12-19 13:54:16 745

原创 FlashLightNet:实时检测与分类静态和闪烁交通灯状态的端到端深度学习框架

本文是对论文《FlashLightNet: An End-to-End Deep Learning Framework for Real-Time Detection and Classification of Static and Flashing Traffic Light States》的深度解读。在自动驾驶导航领域,静态与闪烁交通灯的实时精准识别是关键挑战。密西西比州立大学团队提出的 FlashLightNet 框架,融合 YOLOv10n、ResNet-18 与 LSTM,实现五类交通灯状态检测。

2025-12-18 11:00:00 966

原创 DSGN:基于深度立体几何网络的 3D 目标检测革新

本文是对论文《DSGN: Deep Stereo Geometry Network for 3D Object Detection》的深度解读。在自动驾驶 3D 感知领域,图像基与 LiDAR 基 3D 目标检测的性能差距是核心难题。香港中文大学与 SmartMore 团队提出 DSGN 网络,通过平面扫描体积与 3D 几何体积的可微转换,端到端联合估计深度与检测 3D 目标,显著超越现有立体视觉方法,部分性能比肩 LiDAR 基方法,为低成本 3D 检测提供新方案。

2025-12-18 10:26:05 866 1

原创 PETR:多视图 3D 目标检测的位置嵌入变换新范式

本文是对论文《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》的深度解读。在自动驾驶多视图 3D 目标检测领域,如何避免复杂 2D-to-3D 投影与特征采样是关键挑战。MEGVII 团队提出的 PETR 框架,创新性地将 3D 坐标编码为位置嵌入注入 2D 特征,生成 3D 位置感知特征,实现端到端检测,在 nuScenes 数据集取得 SOTA 性能,为该领域提供强基线。

2025-12-18 08:46:32 1158

原创 DETR3D:基于 3D-to-2D 查询的多视图 3D 目标检测框架

本文是对论文《DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries》的深度解读。在自动驾驶视觉感知领域,基于多相机图像的 3D 目标检测面临深度估计误差与后处理冗余等挑战。研究团队提出 DETR3D 框架,以自上而下的 3D-to-2D 查询方式融合多视图信息,无需密集深度预测与 NMS 后处理,在 nuScenes 基准达成最优性能,为低成本自动驾驶 3D 检测提供了高效解决方案。

2025-12-17 15:38:50 979

原创 UniAD:面向规划的端到端自动驾驶统一框架

本文是对论文《Planning-oriented Autonomous Driving》的深度解读。在自动驾驶领域,传统模块化或多任务框架存在误差累积、负迁移等问题,上海 AI 实验室等团队提出 UniAD 框架,以规划为核心导向,整合五大驾驶任务,通过统一查询接口实现任务协同,在 nuScenes 基准上全面超越现有方案,为端到端自动驾驶提供新范式。

2025-12-17 13:31:20 1092

原创 BEVFusion:多任务多传感器融合的统一鸟瞰图表示框架

本文是对论文《BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation》的深度解读。在自动驾驶感知领域,多传感器融合面临几何失真与语义损失的双重挑战。MIT 团队提出的 BEVFusion 框架,创新性地将多模态特征统一到共享鸟瞰图空间,通过优化 BEV 池化实现 40 倍效率提升,兼顾几何与语义信息,在 3D 目标检测和 BEV 地图分割任务中刷新性能基准,且计算成本更低。

2025-12-16 15:39:21 1142

原创 CPDet3D:面向室内外统一的稀疏监督 3D 目标检测新范式

本文是对论文《Learning Class Prototypes for Unified Sparse Supervised 3D Object Detection》的深度解读。在 3D 目标检测领域,现有稀疏监督方法仅适用于室外场景,难以适配室内场景特异性类别。南京理工大学等团队提出的 CPDet3D 方法,通过学习类别原型挖掘未标注目标,结合多标签协同优化,实现室内外统一稀疏监督检测,在 ScanNet V2、SUN RGB-D 和 KITTI 数据集上分别达到全监督性能的 78%、90% 和 96%。

2025-12-16 14:30:00 971

原创 Sketchy-3DIS:草图边界框监督下的弱监督 3D 实例分割

本文是对论文《Sketchy Bounding-box Supervision for 3D Instance Segmentation》的深度解读。在 3D 实例分割领域,准确边界框标注获取困难的问题亟待解决。南开大学等团队提出的 Sketchy-3DIS 框架,创新性地采用草图边界框监督,通过自适应伪标签生成器与粗到精分割器联合训练,在 ScanNetV2 和 S3DIS 数据集上实现领先性能,甚至超越部分全监督方法。

2025-12-15 16:35:16 771

原创 Vision-Language-Action 模型在自动驾驶中的应用(VLA4AD)

本文是对论文《A Survey on Vision-Language-Action Models for Autonomous Driving》的深度解读。在自动驾驶领域,如何融合视觉、语言与动作实现可解释、安全的决策,是核心挑战。该研究首次全面梳理 VLA4AD 范式,追溯其从解释型模型到推理增强型模型的演进,详解架构设计、数据集、训练评估方法,剖析现存挑战与未来方向,为相关研究提供关键参考。

2025-12-15 10:36:58 652

原创 DETR:基于 Transformer 的端到端目标检测

本文是对论文《End-to-End Object Detection with Transformers》的深度解读。在目标检测领域,传统方法依赖锚点生成、NMS 等人工设计组件,流程复杂且泛化受限。Facebook AI 团队提出的 DETR,创新性地将目标检测视为直接集合预测问题,通过 Transformer 编码器 - 解码器与二分图匹配损失,摒弃冗余组件,实现端到端检测,在 COCO 数据集上性能比肩 Faster R-CNN,且易扩展至全景分割任务。

2025-12-15 09:56:56 985

原创 SparseMeXt:解锁稀疏表示在高清地图构建中的潜力

本文是对论文《SparseMeXt: Unlocking the Potential of Sparse Representations for HD Map Construction》的深度解读。在自动驾驶高清地图构建领域,稀疏表示虽高效但性能滞后,一直是核心挑战。研究团队创新性提出 SparseMeXt 框架,通过专用网络架构、稀疏 - 密集辅助分割与物理先验去噪模块,实现稀疏表示对密集方法的超越,在 nuScenes 数据集上达成精度与效率的最优平衡,为实时部署提供新方案。

2025-12-11 10:59:20 792

原创 VoxelSplat:动态高斯溅射赋能占用率与场景流预测

本文是对论文《VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction》的深度解读。自动驾驶感知中,基于相机的占用率与场景流预测面临遮挡、运动建模难等挑战。南开大学等联合团队提出 VoxelSplat 框架,借助动态 3D 高斯溅射,通过 2D 投影语义监督与自监督场景流学习,以即插即用形式集成于现有模型,在不增加推理耗时的前提下,显著提升了预测精度。

2025-12-11 09:47:33 621

原创 ZeroMatch:基于预训练大视觉模型的零样本 RGB-D 点云配准

本文是对论文《Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision Model》的深度解读。在 3D 重建与 SLAM 领域,未知场景下的 RGB-D 点云配准是核心挑战。研究团队提出 ZeroMatch 框架,融合 FPFH 手工几何描述符与 Stable Diffusion 全局特征,创新耦合图像输入与一致性注意力机制,无需任务特定训练,在三大基准数据集上实现优异零样本配准性能。

2025-12-09 09:47:15 767

原创 CenterPoint:基于中心点的 3D 目标检测与跟踪框架

摘要:本文是对论文《Center-based 3D Object Detection and Tracking》的深度解读。在自动驾驶 3D 感知领域,传统锚框方法难以适配旋转目标与稀疏点云的挑战。UT Austin 团队提出的 CenterPoint 框架,创新性地将 3D 目标表示为中心点,通过两阶段检测与速度预测实现高效跟踪,在 Waymo 和 nuScenes 数据集上达成 SOTA 性能,兼顾精度与实时性。

2025-12-08 13:42:17 932

原创 PointPillars:激光雷达点云 3D 目标检测的高效编码器方案

本文是对论文《PointPillars: Fast Encoders for Object Detection from Point Clouds》的深度解读。在自动驾驶 3D 目标检测领域,激光雷达点云的稀疏性与检测速度、精度的平衡是核心挑战。nuTonomy 团队提出的 PointPillars,创新地将点云组织为柱体并编码为伪图像,通过纯 2D 卷积实现端到端学习,在 KITTI 数据集上达成 62Hz 实时推理速度,精度超越多数融合方法,为激光雷达点云检测提供了高效解决方案。

2025-12-08 10:49:38 922

原创 BEVFormer:基于时空 Transformer 的多相机鸟瞰图表征学习

本文是对论文《BEVFormer》的深度解读。在自动驾驶 3D 感知领域,如何从多相机图像高效生成精准 BEV 表征,是核心挑战。上海 AI 实验室等团队提出的 BEVFormer,以网格状 BEV 查询为载体,结合空间交叉注意力与时序自注意力,聚合多相机空间特征与历史 BEV 时序特征,无需依赖深度信息,在 nuScenes 测试集达 56.9% NDS,显著提升速度估计与低可见度目标检测性能。

2025-12-05 10:11:14 985

原创 Sparse4D v3:端到端 3D 检测与跟踪的技术突破

本文是对论文《Sparse4D v3_Advancing End-to-End 3D Detection and Tracking》的深度解读。在自动驾驶感知领域,3D 检测与跟踪是核心任务,稀疏算法虽具优势但存收敛与精度问题。地平线机器人团队提出 Sparse4D v3 框架,引入时序实例去噪、质量估计、解耦注意力三大策略,还将其扩展为端到端跟踪模型,无需修改训练与标签。在 nuScenes 基准测试中,该模型性能显著提升,展现出高效实用性。

2025-12-04 16:35:47 908

原创 Lift, Splat, Shoot:自动驾驶多视图相机的 BEV 语义表示学习

本文是对论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》的深度解读。在自动驾驶感知领域,如何从多视图相机数据中构建统一且精准的BEV表示是核心挑战。论文团队提出的Lift-Splat-Shoot架构,通过 “提升 - 融合 - 规划” 三步流程,实现端到端BEV语义提取,突破传统多视图融合局限,为纯视觉自动驾驶感知提供关键技术路径。

2025-12-04 14:05:45 837

原创 VADv2:基于概率规划的端到端矢量化自动驾驶

本文是对论文《VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning》的深度解读。在端到端自动驾驶领域,驾驶规划的不确定性与非确定性始终是核心挑战。华中科技大学与地平线机器人团队提出的 VADv2,创新性地将概率建模用于连续规划动作空间,以多视角图像序列为输入,经场景编码与概率规划输出动作分布并采样控车,仅用相机就在 CARLA Town05 基准实现 SOTA 闭环性能,无需规则包装器即可稳定运行。

2025-12-03 16:56:37 985

原创 BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测

本文是对论文《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》的深度解读。在自动驾驶感知领域,3D 目标检测需兼顾精度与效率,且需统一 3D 检测与 BEV 语义分割范式,这是关键挑战。PhiGent Robotics 团队提出的 BEVDet 范式,以 BEV 视角实现多相机 3D 检测,通过模块化设计复用组件,优化双空间数据增强与 Scale-NMS 策略,在 nuScenes 数据集上表现优异,为自动

2025-12-03 15:22:15 1005

原创 DiffusionDrive:面向端到端自动驾驶的截断扩散模型

本文是对论文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》的深度解读。在端到端自动驾驶领域,传统扩散模型应用面临计算开销大、模态坍缩问题,现有多模态规划方法依赖大量锚点。华中科技大学与地平线机器人团队提出的DiffusionDrive,创新设计截断扩散策略(锚定高斯分布+2步去噪)与级联扩散解码器,在NAVSIM达 88.1 PDMS,NVIDIA 4090 上 45 FPS,兼顾性能与实时性。

2025-12-03 11:52:08 870

原创 DiffVLA:视觉语言引导的扩散规划在自动驾驶中的创新与实践

本文是对论文《DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving》的深度解读。在端到端自动驾驶领域,BEV计算昂贵、动作多样性不足及复杂场景次优决策是关键挑战。RB团队(Bosch、清华大学等联合)提出DiffVLA框架,融合VLM引导、混合稀疏 - 稠密感知与扩散规划模块,在NavSim v2私有测试集获 45.0 扩展 PDMS,2025 自动驾驶挑战赛表现优异,为端到端自动驾驶提供高效解决方案。

2025-12-03 09:44:34 943

原创 Chameleon:早融合多模态基础模型的技术突破

本文是对论文《Chameleon: Mixed-Modal Early-Fusion Foundation Models》的深度解读。在多模态建模领域,现有模型常因模态分离处理难以深度融合信息,且无法灵活生成图像 - 文本交错序列。Meta FAIR 团队提出 Chameleon 早融合多模态模型家族,将图像、文本统一为离散 token,以 QK-Norm 等技术解决训练不稳定性,单模型实现图像描述 SOTA、文本任务比肩 Mixtral,混合模态生成偏好率超 GPT-4V+,推动多模态建模向统一化迈进。

2025-12-02 16:05:30 858

原创 Co-MTP:面向自动驾驶的多时间融合协同轨迹预测框架

本文是对论文《Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving》的深度解读。在自动驾驶领域,V2X技术虽能突破单车感知局限,但现有研究难充分利用帧间时间线索支撑轨迹预测。同济大学团队提出Co-MTP框架,创新实现历史与未来双时间域融合,以异构图Transformer处理不完整历史轨迹、扩展至未来域捕捉交互,在V2X-Seq数据集获最优性能。

2025-12-02 15:02:30 1110

原创 Don’t Shake the Wheel: 端到端自动驾驶中的动量感知规划(MomAD)

本文是对论文《Don’t Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous Driving》的深度解读。在端到端自动驾驶领域,多模态规划易受单帧感知局限,存在时间不一致、遮挡敏感等问题。论文团队提出 MomAD 框架,引入轨迹与感知动量,通过 TTM 模块(豪斯多夫距离选轨迹)、MPI 模块(融合历史查询)及鲁棒去噪,结合 Turning-nuScenes 数据集与 TPC 指标,显著提升规划稳定性,降低碰撞率。

2025-12-02 10:41:45 1161

原创 OLMo 2:全开放语言模型的技术突破与实践

本文是对论文《2 OLMo 2 Furious》的深度解读。在开放语言模型领域,如何实现全链路开放与高性能、高稳定性的平衡是关键挑战。OLMo Team 发表的这项研究,推出 OLMo 2 系列全开放语言模型,涵盖 7B、13B、32B 参数规模,通过预训练稳定性优化、中期训练定向补强、后训练适配指令场景的三阶段体系,实现性能 - 算力 Pareto 最优,Base 模型媲美 Llama 3.1 等,Instruct 模型接近 GPT-3.5 Turbo,且全量开放训练 artifacts。

2025-12-01 16:45:39 1229 1

原创 Molmo&PixMo:全开源视觉语言模型的突破之路

本文是对论文《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》的深度解读。在VLM领域,专有模型垄断SOTA性能、开源模型依赖蒸馏的问题突出。本文队提出Molmo开源家族及PixMo数据集,不依赖外部VLM,通过语音标注等创新收集高质量数据,优化架构与训练流程,Molmo-72B超Claude 3.5 Sonnet等专有模型,仅落后GPT-4o,填补开源 VLM 全链路空白。

2025-12-01 11:06:26 873

原创 Transfusion:统一离散与连续模态的多模态生成模型

本文是对论文《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》的深度解读。在多模态生成领域,离散文本与连续图像的统一建模存在架构割裂或信息损失问题。Meta 团队提出的Transfusion模型,创新采用单Transformer架构,联合优化LM(文本下 token 预测)与DDPM(图像扩散)双损失,通过模态适配组件实现无缝生成,为多模态生成提供了新的范式。

2025-11-28 10:27:00 861

原创 Llama 3:Meta 新一代开源基础模型群

本文是对 Meta LLaMA 3 系列相关技术资料的深度解读。在开源大模型领域,如何平衡超大规模模型性能、多模态扩展与安全可控性是核心挑战。Meta 发布的 LLaMA 3 论文,提出 “数据质量 - 规模 - 复杂性管理” 三大杠杆,构建 405B 参数开源模型,采用组合式架构集成多模态能力;而 LLaMA 3.2-Vision 是其多模态产品化落地,继承论文框架,实现视觉功能实用部署,Meta 暂未为 LLaMA 3.2 单独发布论文。

2025-11-27 15:50:31 1692

原创 Baichuan-Omni:首个开源 7B 全模态大语言模型

本文是对论文《BAICHUAN-OMNI TECHNICAL REPORT》的深度解读。在全模态大模型领域,开源方案常存在模态覆盖不全、交互体验不佳的问题。Baichuan Inc. 联合西湖大学、浙江大学团队推出的 Baichuan-Omni,是首个开源 7B 参数全模态 MLLM,支持文本、图像、视频、音频四模态并发处理,通过 “全模态数据构建→多模态对齐预训练→多任务微调” 流程,及 Conv-GMLP、AnyRes 等技术,在多基准测试中表现领先,为开源社区提供全模态研究基线。

2025-11-27 10:45:00 566

《BEVFormer:基于时空 Transformer 的多相机鸟瞰图表征学习》对应的GitHub代码

《BEVFormer:基于时空 Transformer 的多相机鸟瞰图表征学习》对应的GitHub代码

2025-12-05

《Sparse4D v3:端到端 3D 检测与跟踪的技术突破》对应的GitHub代码

《Sparse4D v3:端到端 3D 检测与跟踪的技术突破》对应的GitHub代码

2025-12-04

《VADv2:基于概率规划的端到端矢量化自动驾驶》对应的GitHub代码

《VADv2:基于概率规划的端到端矢量化自动驾驶》对应的GitHub代码

2025-12-03

《BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测》对应的GitHub代码

《BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测》对应的GitHub代码

2025-12-03

《DiffusionDrive:面向端到端自动驾驶的截断扩散模型》对应的GitHub代码

《DiffusionDrive:面向端到端自动驾驶的截断扩散模型》对应的GitHub代码

2025-12-03

《LLaMA:开源高效基础语言模型的技术突破与实践》对应的GitHub代码

《LLaMA:开源高效基础语言模型的技术突破与实践》对应的GitHub代码

2025-11-26

《Pixtral 12B:兼顾多模态与文本性能的开源新标杆》对应的推理GitHub代码

《Pixtral 12B:兼顾多模态与文本性能的开源新标杆》对应的推理GitHub代码

2025-11-26

《InternVL:大规模视觉语言基础模型的突破与实践》对应的GitHub代码

《InternVL:大规模视觉语言基础模型的突破与实践》对应的GitHub代码

2025-11-26

《PaLI:多语言图文联合缩放模型的技术突破与实践》对应的GitHub代码

《PaLI:多语言图文联合缩放模型的技术突破与实践》对应的GitHub代码

2025-11-21

《LLaVA-1.5:视觉指令调优的高效基线模型革新》对应的GitHub代码

《LLaVA-1.5:视觉指令调优的高效基线模型革新》对应的GitHub代码

2025-11-21

《Emu3:仅靠 Next-Token Prediction,打通多模态生成与感知的统一范式》对应的GitHub代码

《Emu3:仅靠 Next-Token Prediction,打通多模态生成与感知的统一范式》对应的GitHub代码

2025-11-20

《BLIP:统一视觉语言理解与生成的预训练新范式》对应的GitHub代码

《BLIP:统一视觉语言理解与生成的预训练新范式》对应的GitHub代码

2025-11-19

DrawEduMath:评估视觉语言模型的教育领域新基准<论文GitHub代码>

DrawEduMath:评估视觉语言模型的教育领域新基准<论文GitHub代码>

2025-11-11

论文精读DreamVideo:定制化主体与动作的视频生成技术,论文对应的代码包

论文精读DreamVideo:定制化主体与动作的视频生成技术,论文对应的代码包

2025-11-05

论文精读AVID:基于扩散模型的任意长度视频修复,文章配套的代码资源

论文精读AVID:基于扩散模型的任意长度视频修复,文章配套的代码资源

2025-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除