计算机视觉/三维重建/OOD论文速递
文章平均质量分 89
本专栏致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等),帮助读者快速掌握领域最新进展
R.X. NLOS
这个作者很懒,什么都没留下…
展开
-
论文速览 | USENIX security 2024 | π-Jack: Physical-World Adversarial Attack on Monocular Depth Estimatio
π-Jack攻击方法犹如自动驾驶领域的"大卫·科波菲尔",通过巧妙的透视劫持技术,成功地"欺骗"了单目深度估计(MDE)系统的"眼睛"。这种攻击不需要复杂的数字操作,只需在现实世界中策略性地放置普通3D物体,就能显著影响MDE的深度感知能力。创新性:首次提出利用透视劫持进行物理世界MDE攻击。有效性:能够造成高达14.75米的平均深度误差。鲁棒性:在各种实际条件下(如不同物体尺寸、距离、角度、光照等)保持良好性能。隐蔽性:使用普通3D物体作为攻击载体,不易引起怀疑。泛化性。原创 2024-07-11 22:20:19 · 138 阅读 · 0 评论 -
概念解析 | 事件相机的原理 (含仿真代码)
在我们熟悉的世界里,传统相机就像一个勤勉的绘画师,每隔固定的时间就为我们勾勒出一幅完整的画面。但是,大自然中有太多瞬息万变的精彩场景,这种"定时绘画"的方式往往难以捕捉。于是,一种全新的"观察者"应运而生 -事件相机(Event Camera)。事件相机,就像是一群极其敏感的"像素哨兵",它们不再按部就班地等待指令,而是主动感知周围的变化,只有在光线强度发生显著变化时才会发出信号。这种革命性的设计,让事件相机拥有了传统相机难以企及的优势:超高的时间分辨率、极低的延迟、宽广的动态范围,以及出色的能效比。原创 2024-07-11 10:25:48 · 272 阅读 · 0 评论 -
论文速览 | ICRA 2023 | Fusing Event-based Camera and Radar for SLAM Using Spiking Neural Networks with C
本文提出了一种创新的SLAM方法,通过融合DVS相机和FMCW雷达,并利用SNN进行特征提取和处理,实现了一种生物启发的、能够在线学习的SLAM系统。该系统在复杂环境和强光照变化条件下表现出了优异的性能和鲁棒性。这项研究为多传感器融合SLAM和神经形态计算在机器人导航中的应用开辟了新的方向。它不仅展示了DVS和雷达这两种互补传感器的潜力,还证明了SNN在处理时空数据流方面的优势。原创 2024-07-08 09:40:02 · 109 阅读 · 0 评论 -
论文速览 | CoRL 2018 | ESIM: an Open Event Camera Simulator | 开源高质量事件相机模拟器ESIM
本文介绍了,这是第一个能够可靠高效地模拟事件数据的开源事件相机模拟器。创新的自适应采样策略:通过渲染引擎和事件模拟器之间的紧密耦合,ESIM实现了理论上合理的自适应渲染方案,只在必要时采样帧,从而大大提高了模拟的准确性和效率。全面的模拟能力:ESIM可以模拟任意3D场景中的任意相机轨迹,并生成高质量的事件数据,为事件相机算法的开发和测试提供了强大的工具。实验验证:通过与固定采样策略的对比、与真实数据的比较以及光流学习的应用实例,作者全面验证了ESIM的性能和实用性。广阔的应用前景。原创 2024-07-08 09:08:36 · 79 阅读 · 0 评论 -
论文回顾 | CVPR 2021 | How to Calibrate Your Event Camera | 基于图像重建的事件相机校准新方法
这篇论文提出了一种新颖而有效的事件相机校准方法。通过利用神经网络图像重建技术,研究者巧妙地解决了事件相机校准的难题,使得传统的校准方法和工具可以直接应用于事件相机。这种方法不仅避免了对特殊校准目标的需求,还实现了事件相机与其他传感器的联合校准。实验结果表明,这种方法在各种畸变模型和参数设置下都能achieve accurate校准结果。特别是,它在模式检测率和重投影误差方面都优于现有的基线方法。原创 2024-07-06 23:03:21 · 374 阅读 · 0 评论 -
论文速览 | CVPR 2022 | Autofocus for Event Cameras | 首个事件相机自动对焦算法:让事件相机在黑暗中也能清晰成像
本研究犹如一把钥匙,打开了事件相机自动对焦的大门。通过创新的事件率(ER)焦点度量和事件基金搜索(EGS)算法,研究者们成功解决了事件相机自动对焦面临的诸多挑战。这项工作不仅在理论上建立了事件数据与图像梯度之间的联系,还在实践中展示了卓越的性能,特别是在低光和动态场景中的优势更加突出。原创 2024-07-05 09:47:38 · 78 阅读 · 0 评论 -
论文速览 | IEEE Signal Processing Letters, 2024 | 基于时空上下文学习的事件相机立体深度估计
本文提出了一种新颖的端到端学习方法,用于从立体事件相机估计密集深度。事件时间聚合模块(E-TAM):从时间特征中提取时间上下文。时间引导的空间上下文学习模块(T-SCLM):利用时间上下文特征指导空间上下文学习。这两个模块的巧妙结合使得网络能够充分利用事件流中的时空信息,从而在立体深度估计任务中取得了显著的性能提升。创新的网络结构:提出了一种深度神经网络,能够充分提取事件流中的时空上下文特征,为基于事件的立体深度估计提供了新的思路。时间上下文的有效利用。原创 2024-06-27 09:28:39 · 241 阅读 · 0 评论 -
论文速览 | ICML 2024 | EvTexture: Event-driven Texture Enhancement for Video Super-Resolution | 基于事件相机的视
本文提出的EvTexture方法为视频超分辨率中的纹理恢复问题提供了一种创新的解决方案。通过巧妙地利用事件信号中的高频动态细节,EvTexture实现了对复杂纹理区域的有效恢复。首次将事件信号用于视频超分辨率的纹理增强。提出了双分支结构,分别处理运动学习和纹理增强。设计了迭代纹理增强模块,逐步提取和refinement纹理细节。在多个数据集上取得了显著的性能提升,特别是在富含纹理的场景中。EvTexture的成功不仅推动了视频超分辨率技术的发展,也为事件相机在计算机视觉中的应用开辟了新的方向。原创 2024-06-25 19:55:21 · 149 阅读 · 0 评论 -
论文速览 | CVPR 2024 | Towards Robust 3D Object Detection with LiDAR and 4D Radar Fusion in Various Weat
本文提出了一种结合LiDAR和4D雷达的三维目标检测框架,通过3D-LRF模块和WRGNet在不同天气条件下实现了鲁棒的三维目标检测。实验结果表明,我们的方法在K-Radar数据集上取得了最先进的性能,验证了我们提出的新方法的有效性。原创 2024-06-20 23:26:10 · 375 阅读 · 0 评论 -
论文速览 | CVPR 2024 | RCBEVDet: Radar-camera Fusion in Bird‘s Eye View for 3D Object Detection | 雷达-摄像头
本文提出的RCBEVDet通过结合多视角摄像头和毫米波雷达,实现了高精度、鲁棒的3D目标检测。我们设计了用于有效的雷达BEV特征提取,并引入CAMF模块实现动态对齐和融合。实验结果表明,RCBEVDet在nuScenes和VoD数据集上均达到了最新的最先进结果,同时具有较高的实时性和鲁棒性。原创 2024-06-21 01:00:00 · 224 阅读 · 0 评论 -
论文速览 | CVPR 2024 | CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distil
本文提出了一种基于**跨模态知识蒸馏的增强型**相机-雷达目标检测框架CRKD,通过引入自适应门控网络和多种蒸馏损失,显著提升了CR检测器的性能。实验结果验证了CRKD在提高检测器性能和鲁棒性方面的有效性。未来,CRKD有望进一步推动低成本、高可靠性自动驾驶感知系统的发展。原创 2024-06-19 21:56:32 · 116 阅读 · 0 评论 -
论文速览 NeurIPS 2023 | Deep Non-line-of-sight Imaging from Under-scanning Measurements | 从欠扫描中恢复隐藏场景
非视距成像技术具有广阔的应用前景,但现有的主动式全视场技术面临着数据采集效率低下的瓶颈。针对这一挑战,作者首次将深度学习方法引入该领域,提出了一种端到端的网络架构。该架构分为两个模块:瞬时测量恢复网络(TRN): 以极少量的稀疏测量数据为输入,通过多核特征提取、多级融合等模块恢复出密集的高分辨率瞬时测量数据。体数据重建网络(VRN): 在线性光传输模型的基础上构建模块化的神经网络,从恢复后的密集测量数据中重建出 3D 隐形场景。引入体数据优化子模块和新的正则化损失函数来提高重建质量。原创 2024-04-01 21:03:01 · 168 阅读 · 0 评论 -
概念解析 | 异构图神经网络: 跨越异质网络,揭示隐藏的关联
注1:本文系"概念解析"系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:异构图神经网络。原创 2024-03-09 10:58:18 · 499 阅读 · 0 评论 -
大模型概念解析 | Embeddings:大模型的“密码本
Embeddings是一种将离散变量(如单词、短语等)映射到连续向量空间的技术。在自然语言处理(NLP)领域,Embeddings通常指将词汇表中的每个单词映射到一个高维实数向量,这个向量捕捉了单词的语义、句法等信息。形式化地说,给定一个词汇表VVV,单词wiw_iwiewix1x2xdewix1x2...xd其中,eee是Embedding函数,ddd是Embedding的维度,xix_ixi是实数。原创 2024-03-09 10:53:50 · 216 阅读 · 0 评论 -
大模型概念解析 | Prompt Engineering
Prompt Engineering是指针对大型语言模型(如GPT-3、PaLM等)设计和优化输入提示(Prompt)的过程,以引导模型生成期望的输出。由于大模型在预训练阶段学习了海量的通用知识,通过精心设计的Prompt,我们可以在各种下游任务上引出模型的知识和能力,而无需针对每个任务进行昂贵的微调。一个优质的Prompt应该满足以下特点:明确性(Clarity):Prompt应该清晰、无歧义地描述任务目标和要求,避免模糊或过于笼统的表述。信息完备性(Informativeness)原创 2024-03-09 10:43:47 · 524 阅读 · 0 评论 -
扩散模型 论文速览 | Arxiv 2023, A Conditional Denoising Diffusion Probabilistic Model for Point Cloud Upsamp
提出了一种基于条件式去噪扩散概率模型的点云上采样方法PUDM。将稀疏点云作为条件,迭代学习稠密点云与噪声之间的变换关系。采用双映射机制,提升点特征的识别能力。通过建模比例因子,可以在推理时生成任意比例的点云。在公开数据集上,该方法取得了state-of-the-art的性能。点云上采样可以丰富稀疏点云的表示,提升下游任务的性能。现有方法主要关注特征提取和上采样模块设计,而本文考虑直接对稠密点云进行建模。利用条件式去噪扩散概率模型(DDPM),直接学习真值点云的几何细节。原创 2023-12-10 09:45:45 · 1105 阅读 · 0 评论 -
视觉大模型论文速览 | Arxiv 2023,Sequential Modeling Enables Scalable Learning for Large Vision Models
注1:本文系“最新论文速览”系列之一,致力于简洁清晰地介绍、解读最新的顶会/顶刊论文。原创 2023-12-04 19:10:15 · 1086 阅读 · 0 评论 -
感知安全(激光雷达)论文速览 | S&P 2023, PLA-LiDAR: Physical Laser Attacks againstLiDAR-based 3D Object Detection
注1:本文系“最新论文速览”系列之一,致力于简洁清晰地介绍、解读最新的顶会/顶刊论文。原创 2023-12-04 18:47:55 · 556 阅读 · 0 评论 -
无线感知论文速览 | Arxiv 2023, Differentiable Radio Frequency Ray Tracing for Millimeter-Wave Sensing
提出DiffSBR,一种基于可微分射频(RF)射线追踪的毫米波感知范式,实现从稀疏毫米波信号到详细3D重建核心是可微分RF模拟器,实现信号反向传播,配合渐进优化进行3D重建相比数据驱动方法,DiffSBR超越数据集容量和泛化限制,不需要大量雷达训练数据实验表明DiffSBR在各种雷达平台上实现精细3D重建,即使目标物体之前未被雷达看到。原创 2023-11-26 10:59:14 · 1195 阅读 · 0 评论 -
深度学习/光学计算/计算机视觉 论文速览 | Nature Communications 2023, Training large-scale optoelectronic neural networ
本文提出了DANTE,即光电-人工双神经元网络,以应对光电神经网络对光学衍射建模的复杂计算和优化挑战。DANTE引入了人工神经元层来近似光学神经元层的衍射传播,极大降低了计算成本。DANTE采用全局人工学习和局部光学微调的两步骤训练方法,将全局优化问题分解成独立的局部问题,加速收敛。在CIFAR-10数据集上,DANTE比单神经元方法提高了10%的分类准确率,训练时间缩短了100多倍。DANTE成功在ImageNet数据集上训练了包含1.5亿个光学神经元的大规模网络,性能可媲美VGG网络。原创 2023-11-20 13:31:20 · 276 阅读 · 0 评论 -
论文速览 Arxiv 2023 | DMV3D: 单阶段3D生成方法
基于多视角图像扩散模型,将3D NeRF重建和渲染集成到降噪器中,以end-to-end的方式训练,避免了独立训练3D NeRF编码器(两阶段模型)和烦琐的每件资产优化(SDS方法)。扩散过程:每张图片独立扩散,噪声等级由α控制。降噪过程:使用3D重建模块E从噪声多视角图像重建干净3D表征S,使用可微渲染模块R在特定视角c渲染降噪图像。提出基于LRM的多视角降噪器,使用transformer模型从噪声稀疏多视角图像重建干净triplane NeRF,输出通过体积渲染的降噪图像。原创 2023-11-19 21:53:27 · 755 阅读 · 0 评论 -
NLOS成像论文速览 | OE 2023, Super-resolution non-line-of-sight imaging based on temporal encoding 基于时域编码的超
NLOS成像技术可以重建视线以外的物体或场景,在许多领域都有重要应用。在瞬态NLOS成像中,成像时间分辨率受检测器单光子时间分辨率(SPTR)的限制。本文提出了一种时域编码NLOS成像技术(TE-NLOS),可以在低SPTR检测器上实现超分辨率成像。通过利用瞬态图像的时空相关性,可以在已知编码序列的帮助下,从压缩测量中重构高时间分辨率的瞬态图像。实验表明,本方法可以在1.28ns SPTR的检测器上重构出20ps的瞬态图像,时间分辨率提升了64倍。原创 2023-11-19 11:42:57 · 193 阅读 · 0 评论 -
论文速览 IMWUT 2022 | Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and mmWave Rada
本文研究跨模态人员重识别问题,在相机允许区域和相机限制区域之间实现同一人员的关联。利用毫米波雷达和RGB-D相机获取行走样式特征,基于镜面反射模型将两种数据联系起来。提出卷积去量化网络进行特征提取和相似度估计,实现跨模态人员重识别。本文实现了跨毫米波雷达和RGB-D相机的人员重识别。将推动异构传感器的跨区域人员感知。原创 2023-11-17 10:21:06 · 139 阅读 · 0 评论 -
论文速览 | arxiv 2023, 马氏距离感知训练在分布外检测中的应用
注1:本文系“最新论文速览”系列之一,致力于简洁清晰地介绍、解读最新的顶会/顶刊论文。原创 2023-11-10 19:45:07 · 116 阅读 · 0 评论 -
论文速览 | Arxiv 20231102 ROBOGEN: TOWARDS UNLEASHING INFINITE DATA FOR AUTOMATED ROBOT LEARNING VIA GEN
近年取得长足进展,但这些技能仍相对独立、时间跨度短,需要人工设计任务描述和训练监督。我们的方案优势:提取基础模型内的知识,而非直接产生策略或动作。我们使用这些知识构建环境,然后使用额外的物理仿真让机器人获取技能。提出生成式仿真范式,利用基础模型自动生成任务、场景、训练监督,实现机器人技能大规模自动学习。生成式仿真的优势:使用生成模型提取信息,构建环境,再用物理引擎学习理解物理交互,获取技能。将任务分解为子任务,为每个子任务选择学习方法(强化学习、运动规划等)。场景有效性:生成场景符合任务要求。原创 2023-11-04 15:41:15 · 162 阅读 · 0 评论 -
计算成像 论文速递 | Nature 2023, All-analog photoelectronic chip for high-speed vision tasks
系统能耗4.4nJ每帧,能效达7.48×104 TOPS/W,分别高出最新GPU 3和1个数量级。注1:本文系“最新论文速览”系列之一,致力于简洁清晰地介绍、解读最新的顶会/顶刊论文.注2: 论文速览十分粗略,仅起到及时介绍的目的。若希望详细了解,强烈建议阅读原文。ACCEL每帧处理时间由重置、响应和积累时间组成,实测积累时可达2.1ns。ACCEL开启了集成光电子计算的新范式,在实际视觉任务中展现巨大应用前景。利用LeNet等效运算量评估,ACCEL仍大幅优于最新数字神经网络芯片。原创 2023-11-02 20:29:44 · 202 阅读 · 0 评论 -
计算成像论文速递 | Optics Express 2023, Weak non-line-of-sight target echoes extraction without accumulation
本文针对NLOS中的弱目标回波提取问题,提出了双探测器方法和流水线方法,前者利用空间时间相关性提高静止目标探测能力,后者利用时间相关性提取运动目标轨迹。这两种方法都不依赖直接累积而是利用相关性特征进行滤波,可有效突出弱目标回波,减少误报概率,对NLOS成像和定位有重要意义。将两种方法结合,实现了对弱目标的定位和跟踪,证明了基于时间相关性特征滤波的有效性。本文提出了两种在非视距成像(NLOS)中提取弱目标回波的新方法。双探测器方法能增强对静止弱目标的探测。流水线方法能跟踪运动弱目标的轨迹。原创 2023-10-26 15:11:46 · 89 阅读 · 0 评论 -
多模态感知论文速递 | ICCV, 2023, CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception
本文提出了一种新颖的多模态融合方法CRN,以实现精确、稳健、高效的3D多任务感知。该方法有效地克服了每种模态的局限性,将多模态信息融合以生成语义丰富且空间准确的鸟瞰图场景表示。CRN也适用于实时的长距离感知,并在各种任务上获得最先进的性能。希望CRN能够激发未来在3D感知方面进行相机雷达融合的研究。原创 2023-10-26 14:52:47 · 143 阅读 · 0 评论 -
论文速递 Nature 2023 | Heat-assisted detection and ranging
本文提出了HADAR框架,实现了利用热辐射进行无源探测与测距。HADAR克服了传统热成像的局限,提供清晰视觉效果。测距与定位性能也得到大幅提升。HADAR技术可推动自动驾驶、医疗监测等领域发展,对工业4.0具有重要意义。总体来说,本文通过TeX分解与TeX视觉,成功利用热辐射信号实现被动探测与测距,是该领域的重要进展。HADAR数据库与原型机验证了方法的有效性。信息理论下限也为进一步研究提供理论指导。本文为基于热信号的智能感知打开新的视野。原创 2023-08-22 21:20:33 · 748 阅读 · 0 评论 -
TPAMI 2023 | Few-Shot Multi-Agent Perception with Ranking-Based Feature Learning
与其他方法相比,本文提出的基于RegOT的特征匹配机制是这个任务的关键创新点。RegOT不仅考虑了整体的特征图相似度,还建模了特征图在各个空间位置上的数据分布的相似度。这使得RegOT对不同视角和尺度变化具有很强的稳健性。作者特意构建了从空中和地面两个视角获取人脸图像的数据集FS-AirFace,来验证方法的多视角的效果。这种多智能体的场景非常符合方法的优势。从表2可以看出,在这种多视角的人脸识别任务上,本文的提高更加明显。原创 2023-08-19 21:59:22 · 186 阅读 · 0 评论 -
CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio
本文提出了第一个多模态扩散模型MM-Diffusion,实现了高质量的音视频联合生成。主要贡献是提出了多模态扩散的形式化表示,设计了耦合的U型网络进行联合建模。实验结果展示了生成效果显著优于当前最先进的单模态模型。本文向着多模态生成迈出了重要的一步。后续工作可以探索条件生成和Downstream应用。原创 2023-08-14 11:02:30 · 605 阅读 · 0 评论 -
CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)
本文提出了一种新型的基于潜在空间光流扭曲的条件图像到视频生成方法LFDM。它可以高质量地生成符合条件要求的新视频。分阶段的训练策略也使LFDM容易迁移到新域。实验结果表明LFDM优于多种先进对比方法。本文为条件视频生成任务提供了一种新的有效思路。原创 2023-08-14 10:15:13 · 1271 阅读 · 0 评论 -
ICCV 2023 | Robo3D: Towards Robust and Reliable 3D Perception against Corruptions
对于自动驾驶系统,或者任何需要进行实时3D感知的应用来说,一个重要的研究问题就是如何在复杂多变的环境中,保持准确和稳定的感知能力。这就引出了一种被称为"自然干扰"(Natural Corruptions)的挑战,包括恶劣天气、传感器故障、运动模糊等因素,都可能严重影响到3D感知系统的性能。然而,现有的大规模3D感知数据集,往往包含的都是精心清理过的数据,这些数据并不能很好地反映出在实际部署阶段,感知模型的可靠性。因此,本文的作者们提出了一个名为Robo3D。原创 2023-08-11 22:09:38 · 235 阅读 · 0 评论 -
CVPR 2023 | Attention-Based Point Cloud Edge Sampling
本文提出了一种结合深度学习和数学统计的点云边缘采样方法APES。它使用注意力机制计算点之间的相关性,采样相关性高的边缘点。定量和定性结果都验证了其有效性。未来可以考虑引入更多几何特征、设计更好的上采样方法等。原创 2023-08-09 14:30:40 · 1306 阅读 · 0 评论 -
Applied Physics Letters, 2023 | Non-line-of-sight imaging with absorption backprojection
注1:本文系“计算成像最新论文速览”系列之一,致力于简洁清晰地介绍、解读非视距成像领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊;Light‐Science & Applications, Optica 等)。本次介绍的论文是:<Applied Physics Letters, 2023 | Non-line-of-sight imaging with absorption backprojection。背景介绍。原创 2023-08-09 13:34:48 · 156 阅读 · 0 评论 -
CVPR 2023 | 无监督深度概率方法在部分点云配准中的应用
在计算机视觉和三维重建领域,点云配准是一个基础且重要的任务。点云配准的目标是找到两个或多个点云之间的最优变换,使得它们能在同一坐标系中对齐。但在实际应用中,如机器人视觉、增强现实和自动驾驶等,点云通常只有部分重叠,这给配准任务带来了巨大挑战。早期的方法大多依赖于人工标注数据,但这不仅耗时耗力,而且在处理部分重叠的点云时效果并不理想。为了解决这些问题,2023年的CVPR会议上,一组研究人员提出了一种名为UDPReg的无监督深度概率配准框架,专门处理部分重叠的点云。原创 2023-08-08 16:30:58 · 877 阅读 · 0 评论