论文阅读
文章平均质量分 95
追风赶月。
目标是深度学习大师。
展开
-
【3D分割】Segment Anything in 3D with Radiance Fields
NeRF(Neural Radiance Fields)是用于表示3D场景的连续函数,通过多层感知机(MLP)将空间坐标 和视角方向 映射到相应位置的颜色 和体积密度。渲染图像时,NeRF通过光线投射技术生成每个像素点的颜色,公式如下:其中,权重 表示在射线路径 r(t)上的透明度和体积密度的综合效果,公式如下:其中 tn 和 t 分别为光线的近界和远界。原创 2024-09-27 20:55:18 · 1139 阅读 · 0 评论 -
【模型结构】LLaMA: Open and Efficient Foundation Language Models
这项工作的重点是训练一系列语言模型,通过训练比通常情况下更多的词块,在各种推理预算下实现最佳性能。由此产生的模型称为 LLaMA(7B-65B)。原创 2024-08-08 19:58:39 · 967 阅读 · 0 评论 -
【模型结构】LLaMA: Open and Efficient Foundation Language Models
这项工作的重点是训练一系列语言模型,通过训练比通常情况下更多的词块,在各种推理预算下实现最佳性能。由此产生的模型称为 LLaMA(7B-65B)。原创 2024-07-29 10:29:27 · 656 阅读 · 0 评论 -
【开放词汇分割】Side Adapter Network for Open-Vocabulary Semantic Segmentation
Side Adapter Network (SAN) 是一个端到端的框架,旨在充分利用CLIP模型在开放词汇语义分割中的能力。SAN由一个轻量级的视觉Transformer实现,可以利用CLIP的特征,并且有两个输出:掩码提案和用于掩码识别的注意力偏差。这些注意力偏差应用于CLIP的自注意力机制,以识别掩码提案的类别。在实践中,将浅层 CLIP 层的特征融合到 SAN 中,并将注意力偏差应用于更深的 CLIP 层以进行识别。通过这种单前向设计,可以最大限度地降低 CLIP 模型的成本。SAN的详细架构。原创 2024-07-01 17:05:59 · 759 阅读 · 0 评论 -
【开放词汇分割】GroupViT: Semantic Segmentation Emerges from Text Supervision
在视觉场景理解中,分组和识别是关键的任务,常见于目标检测和语义分割等应用。传统的深度学习方法通常依赖于像素级的标注,通过全卷积网络(Fully Convolutional Networks, FCNs)直接在输出层进行像素级的分类。然而,这些方法存在两个主要问题。原创 2024-06-25 00:06:13 · 1027 阅读 · 0 评论 -
【多模态融合】IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection
3D目标检测在自动驾驶和机器人等应用中是一个关键任务。尽管点云提供了关于3D空间的宝贵几何信息,但通常缺乏详细的纹理描述且分布稀疏,特别是在远距离场景中。为了克服这些限制,近期的趋势是通过融合点云和多视角图像的信息进行多模态3D目标检测。图像模态提供了详细的纹理和密集的语义信息,补充了稀疏的点云,从而增强了3D感知能力。原创 2024-06-04 00:50:10 · 1229 阅读 · 0 评论 -
【模型架构】学习最火热的Mamba、Vision Mamba、MambaOut模型
状态空间模型(State Space Model, SSM)是一种用于描述动态系统的数学模型,特别适用于时间序列分析和控制系统设计。它将系统的状态表示为一个状态向量,并通过状态方程和观测方程描述系统的动态行为和观测过程。因此,SSM是可以用于描述这些状态表示并根据某些输入预测其下一个状态可能是什么的模型,这就符合了作为深度学习模型基础架构的条件。SSM的计算示意图具体来说,可以用下面的公式描述上述过程:状态变量:描述系统当前状态的变量。状态变量通常是一个向量,包含系统当前时刻的所有信息。原创 2024-06-01 20:43:20 · 3007 阅读 · 0 评论 -
【模型架构】学习RNN、LSTM、TextCNN和Transformer以及PyTorch代码实现
在自然语言处理(NLP)领域,模型架构的不断发展极大地推动了技术的进步。从早期的循环神经网络(RNN)到长短期记忆网络(LSTM)、Transformer再到当下火热的Mamba(放在下一节),每一种架构都带来了不同的突破和应用。本文将详细介绍这些经典的模型架构及其在PyTorch中的实现,由于我只是门外汉(想扩展一下知识面),如果有理解不到位的地方欢迎评论指正~。个人感觉NLP的任务本质上是一个序列到序列的过程,给定输入序列,要通过一个函数实现映射,得到输出序列。原创 2024-05-31 20:25:32 · 1577 阅读 · 2 评论 -
【多模态融合】SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection
自动驾驶汽车依靠激光雷达和摄像头等多个传感器来感知周围环境。然而,两个传感器获取的同一物理场景的表示通常存在显着差异,因为 LiDAR 传感器使用 360 度旋转捕获点云,而相机从没有深度感的透视图捕获图像。这阻碍了激光雷达和相机模式的有效和高效融合。为了应对这一挑战,提出了多传感器融合算法来寻找多模态数据之间的对应关系,将它们转换并融合到统一的场景表示空间中。原创 2024-05-27 22:24:02 · 661 阅读 · 0 评论 -
【模型架构】目标检测中的单阶段、两阶段、Anchor-Free和Anchor-based,以Faster-RCNN、YOLO、CornerNet、CenterNet为例
目标检测算法中,可以按照单阶段(One-Stage)和两阶段(Two-Stage)进行划分,也可以按照Anchor-Free和Anchor-based进行划分类型。不过,目前更流行的提法是后者。原创 2024-05-25 16:26:19 · 2083 阅读 · 0 评论 -
【多模态融合】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
多传感器融合在自动驾驶系统中展示了其巨大优势。不同的传感器通常能提供互补的信息。例如,摄像头以透视视角捕捉信息,图像中包含丰富的语义特征,而点云则提供更多的定位和几何信息。充分利用不同传感器有助于减少不确定性,从而进行准确和鲁棒的预测。然而,由于不同模态的传感器数据在分布上的巨大差异,融合这些多模态数据一直是个挑战。当前的主流方法通常通过构建统一的鸟瞰图(BEV)表示来进行多模态特征融合,或通过查询令牌(Transformer架构)来实现多模态融合。原创 2024-05-20 17:43:38 · 1548 阅读 · 0 评论 -
【3D目标检测】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras
目前的 3D 感知模型采用了大型图像编码器、高分辨率图像和长期时间序列输入,带来了显着的性能提升。然而,由于计算资源的限制,这些技术在训练和推理场景中通常不兼容。此外,现代自动驾驶系统更倾向于采用端到端的多任务3D感知框架,这可以简化整体系统架构并降低实现复杂度。然而,在端到端 3D 感知模型中联合优化多个任务时,任务之间经常会出现冲突。原创 2024-05-10 17:16:29 · 1003 阅读 · 0 评论 -
【多模态融合】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection
本文介绍了 SparseLIF,这是一种高性能完全稀疏多模态 3D 物体检测器,其性能优于所有其他密集对应检测器和稀疏检测器。 SparseLIF 通过在查询生成、特征采样和多模态融合三个方面增强丰富 LiDAR 和相机表示的感知来弥补性能差距。原创 2024-04-29 14:09:43 · 1087 阅读 · 0 评论 -
【3D目标检测】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion
本文贡献:(1)提出Sparse4D是第一个具有时域融合的稀疏查询多视图3D检测算法;(2)提出了一种可变形的4D聚合模块,可以灵活地完成多维(点、时间戳、视图和比例)特征的采样和融合。(3)引入了深度重加权模块,以缓解基于图像的 3D 感知系统中的不良问题。(4)在nuScenes 数据集上,Sparse4D优于所有现有的稀疏算法和大多数基于 BEV 的算法,并且在跟踪任务上也表现良好。原创 2024-04-23 17:36:39 · 1991 阅读 · 0 评论 -
【多模态融合】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation
自动驾驶系统上往往部署了多个传感器,例如,Waymo 的自动驾驶汽车有 29 个摄像头、6 个雷达和 5 个激光雷达。不同的传感器提供互补信号:例如,摄像头捕获丰富的语义信息,LiDAR 提供准确的空间信息,而雷达提供即时速度估计。因此,多传感器融合对于准确可靠的感知具有重要意义。原创 2024-04-18 18:32:51 · 998 阅读 · 0 评论 -
【3D目标检测】MonoCD: Monocular 3D Object Detection with Complementary Depths
在本文中,作者建议增加深度的互补性来缓解该问题。这里的互补性是指这些预测不仅以高精度为目标,而且具有不同的误差标志。为此,提出了两种新颖的设计。首先,考虑到上述耦合现象,添加了一个新的深度预测分支,该分支利用来自整个图像的全局且有效的深度线索而不是局部线索来降低深度预测的相似性。它依赖于一幅图像中的所有对象大致位于同一平面上的全局信息。其次,为了进一步提高互补性,作者建议充分利用多个深度线索之间的几何关系来实现形式上的互补,利用同一几何量的错误可能对不同分支产生相反影响的事实(达到一个负负为正的效果~)原创 2024-04-09 00:58:18 · 1216 阅读 · 0 评论 -
【3D目标检测】Object as Query: Lifting any 2D Object Detector to 3D Detection
因此,作者提出一种新颖的方法,即多视角2D物体引导的3D物体检测器(MV2D),旨在将任何2D物体检测器提升到多视角3D物体检测。通过利用2D物体检测方法的进步,这些方法可以生成高质量的2D边界框来定位图像空间中的物体,MV2D能够将这些检测转换为后续3D检测任务的参考,使用这些检测作为动态查询有效地定位3D空间中的物体,克服了以前方法的限制。原创 2024-04-01 19:13:48 · 737 阅读 · 0 评论 -
【3D目标检测】Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors
作者发现在某些情况下(例如远距离区域),流行的2D对象检测器比最先进的3D检测器更为可靠。为了提升基于查询的3D对象检测器的性能,论文提出了一种新的查询生成方法QAF2D。此方法的核心思想是利用2D检测的高可靠性来辅助3D检测,以提高后者的性能。原创 2024-03-25 20:06:58 · 847 阅读 · 1 评论 -
【多模态融合】DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
本文贡献:(1)第一个系统研究深度特征对齐对3D多模态检测器的影响(2)提出InverseAug 和LearnableAlign 来实现深度特征级对齐,从而实现准确且稳健的3D 对象检测器;(3)DeepFusions 在 Waymo 开放数据集上实现了最先进的性能原创 2024-03-18 19:41:08 · 1354 阅读 · 0 评论 -
【3D目标检测】UniMODE: Unified Monocular 3D Object Detection
在这项工作中,提出了一种名为 UniMODE 的统一单目 3D 物体检测器,其中包含多种精心设计的技术,可以解决统一 3D 物体检测中观察到的许多挑战。所提出的检测器在 Omni3D 基准上实现了 SOTA 性能并呈现出高效率。进行了大量的实验来验证所提出的技术的有效性。然而,该检测器的局限性在于其对未见数据场景的零样本泛化能力仍然有限。未来,作者希望继续研究如何通过扩大训练数据等策略来提高UniMODE的零样本泛化能力。原创 2024-03-11 12:33:51 · 1443 阅读 · 5 评论 -
【模型架构】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
这一工作通过证明Transformer可以在重要的物体检测(区域级别识别任务)和语义分割(像素级别识别任务)评测集上相比此前所有的卷积网络方法取得显著提升,来让学界和业界意识到Transformer模型将会取代卷积网络,成为视觉骨干网络的新主流。原创 2024-03-06 13:38:36 · 773 阅读 · 0 评论 -
【多模态融合】VirtualPainting:通过虚拟点和距离感知数据增强来解决 3D 对象检测的稀疏性
近年来,多模态方法出现了显着增长,这些方法利用相机衍生的特征来装饰原始 LiDAR 点云,以提高对象检测性能。然而,作者发现这些方法仍然难以解决 LiDAR 点云数据固有的稀疏性问题,这主要是因为稀疏分布对象的相机衍生特征丰富的点较少。作者提出了一种创新方法,涉及使用相机图像生成虚拟 LiDAR 点,并使用从基于图像的分割网络获得的语义标签来增强这些虚拟点,以解决此问题并促进稀疏分布的对象的检测,特别是那些被遮挡或被遮挡的对象。原创 2024-03-05 23:26:18 · 876 阅读 · 2 评论