- 博客(110)
- 收藏
- 关注
原创 小米 MiMo Code:开源 AI 编程助手深度评测以及安装教程
人群推荐度理由终端重度用户⭐⭐⭐⭐⭐原生 CLI,完美开源爱好者⭐⭐⭐⭐⭐MIT,可审计全栈开发者⭐⭐⭐⭐多智能体适合复杂项目新手开发者⭐⭐学习曲线陡IDE 依赖者⭐⭐无 Tab 补全团队协作⭐⭐⭐记忆共享项目上下文跨会话记忆 + 开源 + 自我进化,同类产品中独树一帜。从 2025-06 到 2026-01 下载量 5.8 万 → 1000 万+,增长迅猛。短板:模型能力、生态成熟度、新手友好度仍需时间打磨。MiMo CodeAI编程开源工具。
2026-06-11 12:14:36
9938
1
原创 最新教程|两步搞定codex接入deepseekv4
本文介绍了如何通过cc-switch工具将Codex接入DeepSeek V4模型,主要包括三个步骤:获取DeepSeek API Key、配置cc-switch开启路由并重启Codex、验证接入是否成功。文中特别强调需要注意开启路由开关,并提供了两种验证方法。此外还对比了DeepSeek的两个模型特点,以及常见问题的解决方案。整个过程无需手动配置协议转换,cc-switch已内置DeepSeek预设实现自动适配。
2026-06-08 11:39:20
728
2
原创 教你如何让claude code cli+deepseek进行识图|保姆级教程
摘要 本文介绍如何为纯文本模型DeepSeek添加视觉功能,通过嫁接小米MiMo视觉模型实现零成本图片识别。步骤如下:1) 注册小米AI平台获取免费API Key;2) 搭建本地MiMo MCP服务器,编写Python代码处理图片识别请求;3) 通过Claude Code将视觉描述传递给DeepSeek。整个架构中,DeepSeek始终只处理MiMo生成的文字描述而不直接接触图片。教程提供完整代码示例,无需编程基础即可实现,所有工具均为免费。
2026-05-31 18:49:58
2351
4
原创 几分钟Codex如何接入国产模型 DeepSeek-v4-pro 保姆级教程
Node.js— 环境基础— 模型调用凭证,去 platform.deepseek.com 免费注册获取CCX— 中转服务,把 Codex 的 API 请求转发到 DeepSeekCC-Switch— 切换工具,方便在多个 API 配置间切换Codex— 编辑器本体,用 API 登录方式连上 CCX配置完成后,Codex 就能用上国产模型了,无需 ChatGPT 账号,也无需任何魔法网络环境。
2026-05-25 12:02:40
5211
35
原创 DeepSeek V4 + ClaudeCode--接入指南:5分钟配置,成本直降90%
是 Anthropic 公司推出的一款命令行 AI 编程工具。它运行在你的终端里,能直接读写你的项目文件、执行 Shell 命令、操作 Git,像一个全能的 AI 程序员同事。│ ││ 接入 DeepSeek V4 总共只需四步 ││ ││ 第一步 ── 安装 Claude Code ││ (约 2 分钟) ││ ││ 第二步 ── 获取 DeepSeek API Key ││ 打开 platform.deepseek.com 注册并创建 Key ││ (约 3 分钟) ││ │。
2026-05-05 14:16:23
5230
10
原创 基础篇--RGB-IR 双模态目标检测系列|手把手地教你利用YOLO训练双模态图像数据集
本文将手把手地教你利用YOLO训练双模态图像数据集,从环境部署、数据集的准备,修改yaml文件,直到运行成功!!!!
2026-04-02 20:19:31
1653
2
原创 解耦注意力是什么?带你3分钟看懂轻量RGB-D融合核心原理
本文介绍了轻量级RGB-D多模态融合中的解耦注意力机制(DAM)。传统注意力在轻量网络上效果不佳,因为计算复杂度高且通道数少。DAM通过将2D特征图拆分为水平和垂直两个1D向量,在1D空间计算注意力权重,再将结果广播回2D空间。这种"拆分+投影"方法将计算复杂度从O(N²)降到O(H+W),适合轻量网络。实验表明,DAM在MobileNet V2上性能(MAE 0.044)优于SE、CBAM和Self-Attention。核心代码仅需20行,通过解耦池化和双视图投影实现高效跨模态融合。
2026-06-21 09:07:50
186
原创 SATNet:伪深度增强+解耦注意力,5.2M参数轻量RGB-D SOD新标杆
西安电子科技大学提出的SATNet(TIP 2025)是一种轻量级RGB-D显著性目标检测方案,通过三大创新解决深度图质量差、轻量融合精度低和特征空间受限问题:1)采用Depth Anything基础模型生成高质量伪深度图替代噪声输入;2)设计DAM解耦注意力模块将2D特征拆分为水平/垂直双视图进行轻量跨模态融合;3)提出DIRM双信息表征模块同时建模纹理和显著性特征。该方案仅5.2M参数、1.5G FLOPs,在NLPR数据集上MAE低至0.019(超越SOTA 20.8%),推理速度达415 FPS,适
2026-06-21 08:58:32
635
原创 UnsOcc:非结构化场景3D语义占据预测,渲染融合+高斯溅射精炼,露天矿山场景SOTA
不规则障碍物:非结构化场景中存在大量不规则形状的障碍物(矿石堆、机械设备),传统边界框检测难以准确表示场景稀疏性:非结构化场景几何特征稀疏、语义线索弱化,阻碍了有效的跨模态特征融合长尾分布加剧:非结构化场景中类别分布更不均衡,长尾类别的预测性能严重退化融合方法不适用:现有 Camera-LiDAR 融合方法(拼接、加权求和)在稀疏场景下效果有限本文将深度解析中国科学院自动化研究所和中国科学院大学提出的UnsOcc,这是一个面向非结构化场景的多模态 3D 语义占据预测框架。核心创新是。
2026-06-19 09:29:56
708
原创 GLM-5.2上线并开源?API价格太高?GLM-5.2专注Coding与长程任务|深度解析
DeepSeek V4 Flash仍然是当前最具性价比的低成本方案。推理能力Agent能力代码能力长上下文能力API成本那么GLM-5.2处于当前国产模型中的最佳平衡点之一。对于个人开发者来说,8元/百万Tokens的价格几乎可以忽略不计;对于企业用户而言,在获得接近国际第一梯队模型能力的同时,仍然能够保持较低的部署成本和调用成本。因此,GLM-5.2并不是最便宜的模型,但很可能是2026年最具综合性价比的国产旗舰模型之一。1M上下文solid可用。
2026-06-17 17:15:54
1205
原创 3步实现语义引导LiDAR体素遮掩:让MAE预训练更聪明(附代码)
多模态 MAE 预训练中,均匀随机遮掩忽略了语义重要性。本文用 3 个步骤实现语义引导的 LiDAR 体素遮掩和辅助语义监督。
2026-06-17 09:05:21
241
原创 语义引导掩码预训练:LiDAR体素语义遮掩+辅助语义监督,nuScenes 3D BEV检测NDS提升3.22%
均匀随机遮掩的局限性:现有方法对 Camera 和 LiDAR 输入施加均匀随机遮掩,将所有区域同等对待,但不同语义类别的重建重要性差异巨大——车辆、行人的体素被遮掩后重建退化远大于背景纯重建学习的不足:仅通过掩码重建学习表征,不直接鼓励模型理解语义信息,学到的表征可能擅长"补全像素"但不擅长"理解场景"LiDAR 体素被平等对待:LiDAR 体素仍然被视为可平等遮掩的单元,语义结构信息未被利用语义信息对下游检测的影响未被研究。
2026-06-17 08:46:16
943
原创 国内最强大模型?比肩opus 4.8?看最新测评质谱AI的GLM5.2
智谱AI最新发布的GLM 5.2大模型凭借744B参数的MoE架构和1M上下文支持引发广泛关注。该模型在代码能力、数学推理、Agent任务等方面表现突出,实测性能接近Claude Opus 4.8,成为当前国产最强AI模型。其MIT开源协议和超高性价比(API成本仅为Claude的1/14)使其具有显著优势,尤其擅长处理长上下文任务(如百万级日志分析、跨文档合同比对)。虽然在多模态支持上仍有不足,但GLM 5.2已确立国产大模型的新标杆,为开发者提供了接近国际顶级水平的开源选择。
2026-06-14 12:08:30
3224
1
原创 Mixture of Experts是什么?3分钟看懂可靠性引导的稀疏专家路由融合
简单来说,Mixture of Experts(混合专家模型)是一种"分工协作"的机制。传统方法:所有病人看同一个全科医生,不管什么病都用同一套方案MoE 方法:有一个"调度台",根据病人症状把他们分到不同专科——心脏病去心内科,骨折去骨科,皮肤病去皮肤科在深度学习中,MoE 就是让多个"专家网络"各司其职,一个"路由器"决定每个输入该交给哪个专家处理。
2026-06-14 10:10:59
149
原创 LER-YOLO:RGB-IR不对齐UAV检测,可靠性引导稀疏MoE路由,MBU数据集AP50达89.7
空间不对齐问题:传感器基线差异、镜头畸变、平台振动、云台抖动、异步曝光都会引入空间偏移,对微型无人机目标而言,几个像素的位移就可能将目标响应移入不同的局部特征区域对齐后不可靠问题:现有对齐模块在重采样后直接将对齐特征视为可靠,但在小目标边界、遮挡、运动模糊、背景干扰等区域,对齐对应关系仍然不确定静态融合局限性:固定融合算子或静态注意力规则无法适应不同场景和空间位置的模态可靠性变化——有些区域 RGB 更可靠,有些区域红外更可靠不对齐伪影传播。
2026-06-14 10:05:29
886
原创 3D Gaussian Splatting是什么?5分钟看懂4D雷达-相机融合检测中的高斯编码
本文介绍了3D高斯椭球(3DGS)在4D雷达-相机融合检测中的应用创新。针对传统方法处理稀疏雷达点云(约210点/帧)存在的量化误差和特征稀疏问题,RCGDet3D提出光线对齐高斯编码(R-PGE),通过射线坐标系预测高斯属性,实现更精准的物体边界对齐。同时采用语义注入模块,将视觉特征融合到雷达点提升语义理解。该方法在VoD和TJ4DRadSet数据集上取得SOTA性能(EAA mAP 65.6%,3D AP 47.66%),推理速度达20FPS。核心突破在于优化雷达特征提取而非复杂融合策略,为稀疏点云处理
2026-06-13 09:48:13
219
原创 RCGDet3D光线对齐高斯编码:4步实现4D雷达-相机融合3D检测(附完整代码)
4D 毫米波雷达-相机融合 3D 检测是自动驾驶感知的重要方向。RCGDet3D(北航)的核心创新是光线对齐高斯编码(R-PGE),通过在射线对齐坐标系下预测高斯原语,显著提升了几何一致性和检测精度。本文将用 4 个步骤带你复现核心模块,附完整代码。"""构建射线对齐坐标系的方向向量points: [N, 3] 雷达点坐标"""# 🚀 x_r 沿射线方向# y_r 垂直于 x_r,在 xOy 平面内# z_r 垂直于 x_r 和 y_r# 🚀 旋转矩阵:射线坐标系 → 雷达坐标系。
2026-06-13 09:41:46
213
原创 RCGDet3D:4D雷达-相机融合3D检测,光线对齐高斯编码+语义注入,双SOTA+20FPS
雷达特征提取瓶颈:现有 4D 雷达-相机融合方法大多沿用 LiDAR 的 Pillar/Voxel 编码器处理雷达点云,由于雷达点云稀疏(VoD 数据集中每帧仅约 210 个雷达点,而 LiDAR 有 24000 个),量化误差和特征稀疏问题严重融合策略过度设计:研究者过度关注复杂的图像视角变换和多模态融合策略,以牺牲推理速度为代价换取微小的精度提升,现有 SOTA 方法在 RTX 4090 上仅能达到 6-10 FPS高斯原语坐标学习困难。
2026-06-13 09:37:11
794
原创 M4-SAM:记忆增强SAM,RGB-D视频显著性检测SOTA
M4-SAM创新性地将MoE机制与SAM2结合,提出Modality-Aware MoE-LoRA架构,通过3x3/5x5卷积和深度可分离卷积等"专家"网络协同处理多模态特征,并引入无提示记忆初始化机制,实现了RGB-D视频显著性检测的突破。该方法在7个基准测试中全面达到SOTA水平,解决了传统SAM2在局部特征提取、多层级特征利用和自动化处理方面的三大痛点。
2026-06-12 11:52:16
193
原创 M4-SAM:多模态MoE+记忆增强SAM,RGB-D视频显著性检测SOTA
本文提出了一种基于SAM2的M4-SAM模型,用于RGB-D视频显著性检测任务。针对现有方法在空间建模、多模态融合和无提示初始化方面的不足,该研究设计了三个核心创新:1)Modality-Aware MoE-LoRA模块,通过多专家系统动态融合RGB和深度信息;2)Hierarchical Decoder实现多层级特征解码;3)Prompt-Free Memory Init机制实现自动视频分割初始化。实验表明,该方法在DAVIS-RGBD等基准数据集上达到SOTA性能,显著提升了RGB-D视频显著性检测的准
2026-06-12 11:39:34
715
原创 视差引导Mamba融合遥感RGB-IR旋转检测:DMM(电子科大)超越C2Former 5.2%mAP
本文提出了一种基于视差引导跨模态Mamba(DCFM)的遥感多光谱旋转目标检测方法DMM,有效解决了传统Transformer融合方法复杂度高和RGB模态噪声干扰两大痛点。DMM通过视差引导选择性扫描机制实现高效的跨模态全局交互,结合多尺度目标感知注意力(MTA)和目标先验辅助任务(TPA)抑制噪声干扰。实验表明,该方法在DroneVehicle数据集上mAP@0.5达到79.4%,超越C2Former 5.2个百分点,参数量减少25%,最大输入分辨率提升7.6倍,适用于无人机遥感、城市监控、军事侦察等六大
2026-06-11 09:31:27
757
原创 模态丢失补偿是什么?3分钟看懂ModalPatch即插即用原理
ModalPatch通过历史特征预测+不确定性引导融合的组合,实现了即插即用的模态丢失补偿。利用时序连续性预测丢失的模态特征通过不确定性估计评估补偿特征的可靠性即插即用设计,无需修改架构或重新训练这种设计使得ModalPatch能够轻松集成到现有检测器中,在任意模态丢失场景下保持鲁棒的检测性能。📌想获取完整代码?ModalPatch(阿尔伯塔大学)即插即用模态丢失补偿,多模态3D检测鲁棒性全面提升。
2026-06-10 18:38:28
167
原创 ModalPatch(阿尔伯塔大学)即插即用模态丢失补偿,多模态3D检测鲁棒性全面提升
模态丢失问题:硬件故障、恶劣天气、遮挡等导致传感器数据暂时丢失同时丢失问题:多个传感器同时丢失信号,导致车辆暂时"失明"架构修改成本高:现有方法通常需要重新设计检测架构或完全重新训练仅处理依赖丢失:现有方法主要处理至少一个模态可用的情况,忽略同时丢失场景本文将深度解析阿尔伯塔大学提出的ModalPatch,这是第一个即插即用的模态丢失补偿模块,能够无缝集成到现有检测器中,在不修改架构或重新训练的情况下,实现任意模态丢失场景下的鲁棒检测。本文全程。
2026-06-10 14:48:00
678
原创 双曲几何蒸馏是什么?3分钟看懂HGC-Det跨模态特征迁移原理
切空间是双曲空间在某一点的线性近似。可以把它想象成在球面上某一点的切平面。HGC-Det通过双曲几何约束,在保持语义层次结构的同时实现了高效的跨模态特征迁移。利用双曲空间的负曲率特性天然适合表示层次结构在切空间中计算对齐损失,实现高效的跨模态对齐结合2D语义引导体素优化和特征聚合几何优化,全面提升检测性能这种设计使得HGC-Det在室内场景中表现出色,是多模态3D检测跨模态蒸馏的重要进展。📌想获取完整代码?HGC-Det(哈工大)双曲几何约束跨模态蒸馏,多模态3D检测语义保持新范式。
2026-06-09 16:14:30
226
1
原创 HGC-Det(哈工大)双曲几何约束跨模态蒸馏,多模态3D检测语义保持新范式
在多模态3D目标检测领域,跨模态知识蒸馏是将融合特征迁移到单模态分支的有效策略。语义结构层次丢失:在欧氏空间中压缩高维图像特征会破坏语义的层次结构,导致几何相似但语义不同的类别难以区分图像特征利用不足:由于点云的稀疏性,投影到2D图像平面的点云仅占极小比例,导致图像特征大量浪费空间不对齐:点云和图像之间存在固有的空间不对齐,直接融合会导致信息丢失计算开销大:现有融合方法通常需要复杂的多阶段融合模块,计算代价高昂本文将深度解析哈工大提出的。
2026-06-09 12:05:35
527
原创 RGB-T查询融合是什么?3分钟看懂MDQF模态解耦原理
在DETR检测器中,查询(Query)是一种可学习的嵌入,用于"询问"图像中是否存在特定目标。每个查询对应一个提议(Proposal),包含目标的位置和类别信息。MDQF通过查询融合+模态解耦的组合,实现了RGB-T检测中模态互补与分离的平衡。查询级别的模态融合,选择性保留高质量信息轻量级查询适配器,实现跨模态查询对齐模态解耦框架,保持分支独立性,支持单模态独立运行这种设计使得MDQF在正常条件下充分利用模态互补,在退化条件下有效隔离噪声,是RGB-T多模态检测的重要进展。📌想获取完整代码?
2026-06-08 10:52:55
301
1
原创 MDQF(哈工大深圳)查询融合+模态解耦,RGB-T目标检测模态平衡新范式
哈工大深圳团队提出了一种创新的RGB-T目标检测方案MDQF,通过查询融合和模态解耦架构解决了多模态检测中的关键挑战。该方案采用双分支独立DETR框架,在每个解码器阶段基于置信度选择top-k高质量查询进行跨模态融合,同时使用轻量级阶段特定适配器实现查询对齐。实验表明,该方法在FLIR数据集上达到43.8% mAP和83.1% mAP50,在模态退化情况下展现出优异鲁棒性。核心创新包括:1)查询级融合策略实现模态互补与噪声隔离;2)轻量级适配器完成跨模态查询对齐;3)解耦框架支持单模态独立优化;4)分阶段训
2026-06-08 10:46:27
555
原创 MambaFusion(高通自动驾驶)混合状态空间模型+自适应融合,多模态3D检测线性复杂度SOTA
在自动驾驶多模态3D检测领域,Camera-LiDAR BEV融合检测器已成为主流范式。效率问题:基于Transformer的3D编码器提供全局感知但复杂度为二次方,长距离和时序推理计算代价高昂融合权重固定:大多数系统使用固定或全局权重融合模态,忽略传感器可靠性随距离、遮挡和校准漂移的变化缺乏物理推理:当前检测器仅从特征激活预测置信度,不强制几何合理性或结构一致性时序不稳定:检测结果在帧间波动,缺乏跨时间特征约束本文将深度解析高通提出的。
2026-06-07 10:03:11
842
1
原创 后融合BEV特征稳定器:PFS(南佛罗里达大学)三大校正模块即插即用,多模态3D检测鲁棒性全面提升
在自动驾驶多模态3D检测领域,Camera-LiDAR BEV融合检测器已成为主流范式。传感器退化问题:相机雨滴遮挡、低光照、镜头污染,LiDAR束减少、距离衰减、扇区丢失等物理退化导致特征严重失真域偏移问题:训练数据与实际部署场景存在分布差异(如天气、光照、传感器配置),检测性能大幅下降架构修改成本高:现有鲁棒性方法通常需要修改融合架构或重新训练专用模型,难以集成到已部署系统本文将深度解析南佛罗里达大学提出的。
2026-06-06 10:06:53
891
原创 TPS薄板样条是什么?看懂可变形图像对齐+跨模态RGB-T融合
TPS-SCL用薄板样条(TPS)代替传统仿射变换/单应性估计,实现了真实无对齐RGB-T场景下的弹性可变形对齐。SCCM管"看哪儿"、TPSAM管"对齐"、CMCM管"融合",三板斧砍出AAAI 2026无对齐RGB-T SOD新SOTA。TPS薄板样条对齐RGB-T SOD:TPS-SCL AAAI2026 无对齐SOTA,SCCM约束+TPSAM对齐+CMCM融合!!!
2026-06-05 09:41:10
181
原创 TPS薄板样条对齐RGB-T SOD:TPS-SCL AAAI2026 无对齐SOTA,SCCM约束+TPSAM对齐+CMCM融合!!!
本文提出了一种名为TPS-SCL的新型RGB-T显著目标检测框架,专为解决真实场景中RGB与热红外图像的空间未对齐问题而设计。该方案基于MobileViT双流编码器,创新性地集成了三大核心模块: 1)SCCM语义相关性约束模块,通过高层语义先验引导浅层特征聚焦共显著区域,有效抑制未对齐背景噪声; 2)TPSAM薄板样条对齐模块,结合局部Mamba窗口扫描和可变形变换,实现热红外特征到RGB空间的精确非线性对齐; 3)CMCM跨模态门控融合模块,在共享隐空间中深度挖掘互补信息。 实验表明,该方法在UVT20K
2026-06-05 09:31:03
743
原创 Mamba跨模态融合RGB-D SOD:MambaSOD(重庆大学)双流VMamba+CMM跨模态Mamba+精炼解码,六基准SOTA!!!
本文提出了一种基于Mamba State Space Model的RGB-D显著性检测方法MambaSOD,通过双流VMamba骨干网络分别提取RGB和深度特征,并设计CMM跨模态融合模块实现高效的多模态交互。该方法在六个基准数据集上取得SOTA性能,计算复杂度仅16.9G FLOPs,适合移动端部署。核心创新包括:1)首次将Mamba骨干引入RGB-D SOD任务;2)自模态增强与跨模态门控融合机制;3)线性复杂度全局建模。实验表明,该方法在STERE等数据集上F_max达0.920,超越现有方法2.2%
2026-06-04 10:02:53
905
原创 Mamba状态空间模型是什么?3分钟看懂SS2D选择性扫描RGB-D融合原理
本文提出了一种基于Mamba State Space Model的RGB-D显著性检测方法MambaSOD,解决了现有CNN和Transformer方法在全局建模、计算复杂度和跨模态融合方面的不足。核心创新包括:1)双流Visual Mamba编码器,以线性复杂度建模全局依赖;2)跨模态融合Mamba模块(CMM),通过自模态增强和跨模态门控实现RGB-D深度交互;3)多级精炼解码器逐层聚合特征。该方法在6个基准数据集上取得SOTA性能,STERE数据集F_max达0.920,计算量仅16.9G FLOPs
2026-06-04 09:38:31
213
原创 超像素Token是什么?带你看懂SAGEM全局增强+SALRM局部精炼原理
超像素是计算机视觉中的经典概念:把图像中颜色、纹理相近的相邻像素聚合成一个"小区域"。就像你用橡皮泥把相似颜色的像素捏在一起,形成一个个不规则的小块。每个超像素天然对应物体的一个局部区域,保留了边缘和结构信息。用区域代替像素做跨模态交互,全球部用超像素做中间代理降复杂度,局部用联合筛选+Top-K做精准微调。这种设计既解决了 Transformer 的二次复杂度问题,又保留了关键的局部细节,在七大 RGB-D SOD 基准上全面 SOTA。想看论文逐章精读?
2026-06-03 09:09:29
359
原创 超像素Token跨模态SOD:STENet(上海大学)SAGEM全局增强+SALRM局部精炼,七大基准全面SOTA!!!
首次将超像素引入 RGB-D SOD:通过改进的超像素生成方法(扩展邻域范围),实现像素与超像素的灵活双向转换,为跨模态交互提供天然的区域级中间表示SAGEM 全局增强:通过像素到超像素聚合 + 跨模态超像素交叉注意力 + 超像素到像素分发,以近似线性复杂度捕获全局区域级依赖SALRM 局部精炼:通过联合关联矩阵筛选双模态一致的高相似像素 + Top-K 筛选 + 局部交叉注意力,精准增强超像素内局部细节七大基准全面 SOTA。
2026-06-03 09:02:19
748
原创 单分支BEV编码器是什么?带你一步一步看懂多模态混合训练抗损坏原理
算子公式mRA复杂度PMD0.7313需调度α0.7537O((HW)²)0.7592O(HW)Avg0.7683O(HW)反直觉结果:不加任何可学习参数的简单平均,鲁棒性最高。PMD(渐进模态衰减)的思路:训练过程中一模态的贡献逐渐衰减到零,其他模态不变。
2026-06-02 10:14:50
373
1
原创 单分支BEV抗损坏融合3D检测:SB-BEVFusion(JKU林茨等)ICIP 2026!单分支共享编码器+多模态混合训练,缺失损坏鲁棒暴打BEVFusion!!!
多模态融合一缺传感器就废:BEVFusion在双模态完好时mAP 0.6691,但只剩Camera时mAP断崖跌至0.0109——几乎完全失效。真实自动驾驶中传感器故障、遮挡、极端天气随时可能让一个模态不可用,现有融合方法对此毫无准备。拼接融合是鲁棒性最差的选择:BEVFusion用简单concat合并Camera和LiDAR BEV特征——两模态通道拼一起塞给BEV编码器。当一方缺失时,concat维度直接变一半,编码器第一层就炸。这种"硬依赖两模态"的融合天生脆弱。
2026-06-02 10:09:38
556
原创 互补跨模态掩码是什么?5分钟看懂查询解耦损失+LiDAR引导深度先验原理
自动驾驶感知系统靠"左眼摄像头+右眼激光雷达"看世界。在训练城市(比如新加坡)表现完美,但换到波士顿的新路况、新建筑、新天气——性能直接腰斩。这就是。——LiDAR分支能匹配到37.5倍于Camera分支的训练信号,导致模型完全依赖LiDAR。一旦暴雨让LiDAR稀疏、夜间让视觉退化,模型就彻底抓瞎。(给Camera分支公平监督)、(用LiDAR几何先验修正2D查询深度)、(模拟"一个坏一个好"的真实降质模式)。
2026-06-01 08:54:06
379
原创 域泛化多模态3D检测:CVPR 2026 新加坡科技设计大学CCF!查询解耦损失+LiDAR引导深度先验+互补跨模态掩码,暴雨夜间跨城域泛化暴力涨点!!!
本文提出了一种面向自动驾驶跨域部署的多模态3D目标检测方案CCF,通过查询解耦损失、LiDAR引导深度先验和互补跨模态掩码三大创新组件,解决了现有方法在跨域场景下模态不平衡、2D查询深度不准和融合解码器过度依赖单一模态的问题。该方案在仅使用源域数据训练的情况下,实现了对雨夜极端天气和跨城市场景的零样本泛化能力,在多个目标域上显著提升了检测性能,同时保持了源域性能不降。核心创新包括:三路并行解码器架构提供独立梯度监督、基于LiDAR几何先验的深度修正、以及模拟传感器互补降质的掩码策略。实验表明该方法在跨域3D
2026-06-01 08:46:25
617
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅