Booo0m-CSDN博客

原创 [IJCAI 2024] | BRGScene: 桥接Stereo和BEV特征用于可靠的语义场景补全

本文是对IJCAI2024接受的文章 BRGScene: Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion的介绍，。代码已开源，欢迎大家试用和Star~

2024-07-13 17:27:00 1080

原创 PatchmatchNet: Learned Multi-View Patchmatch Stereo

Abstract我们提出了PatchmatchNet，一种新的、可学习的拼接匹配级联公式，用于高分辨率多视点立体视觉。由于计算速度快，内存需求低，PatchmatchNet可以处理更高分辨率的图像，比使用3D成本体积规则化的竞争对手更适合在资源有限的设备上运行。我们首次在端到端可训练体系结构中引入了一种迭代多尺度Patchmatch算法，并对其核心算法进行了改进，提出了一种新的、可学习的自适应传播和每次迭代的评估方案。大量的实验表明，我们的方法在DTU, Tanks &Temple和ETH3D，但

2021-06-04 15:10:35 1057

原创 SMD-Nets: Stereo Mixture Density Networks

paper | projectAbstract尽管在过去的几年中，深度学习大大提高了立体匹配的精度，但有效地恢复尖锐边界和高分辨率输出仍然具有挑战性。在本文中，我们提出了立体混合密度网络(Stereo Mixture Density Networks, SMD-Nets)，这是一种简单而有效的学习框架，可与广泛的2D和3D体系结构兼容，改善了这两个问题。具体来说，我们利用双峰混合密度作为输出表示，并表明这允许在不连续点附近进行清晰而精确的视差估计，同时明确地对观测中固有的任意不确定性进行建模。此外，我

2021-06-03 22:14:29 978

原创 Transformer-ViT: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ABSTRACT在视觉上，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持它们的整体结构不变。我们表明，这种对神经网络的依赖是不必要的，直接应用于图像块序列的纯transformer可以很好地执行图像分类任务。在图像识别benchmark上可以去到优秀的结果且消耗较少的资源。INTRODUCTION由于transformer的计算效率和可扩展性，它已经成为可能训练模型的空前规模，超过100B参数。随着模型和数据集的增长，性能仍没有饱和的迹象。在计算机视觉中，卷积架构仍然占主导地

2021-05-27 16:17:54 617

原创 Vision Transformers for Dense Prediction

paper：https://arxiv.org/abs/2103.13413code：https://github.com/intel-isl/DPTAbstract我们引入了密集视觉转换器，这是一种利用视觉转换器代替卷积网络作为密集预测任务的骨干架构。我们将视觉转换器的各个阶段的tokens组合成各种分辨率的类图像表示，并使用卷积解码器逐步将它们组合成全分辨率预测。转换器的主干过程表示在一个恒定的和相对高的分辨率，并在每个阶段有一个全局感受野。与完全卷积网络相比，这些属性允许密集视觉转换器提供更细粒

2021-05-24 20:21:00 2755 1

原创自注意力机制GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

paper: https://arxiv.org/pdf/1904.11492.pdfPyTorch代码: https://github.com/shanglianlm0525/PyTorch-NetworksAbstractNL提出了一种开拓性的方法，通过将查询特定的全局上下文聚合到每个查询位置来捕获长期依赖关系。然而分析发现NL网络建模的全局上下文对于图像中的不同查询位置几乎是相同的。在本文中，我们利用这一发现创建了一个基于查询独立公式的简化网络，它保持了NLNet的准确性，但计算量显著减少。我们

2021-05-23 14:39:12 2447

原创 MSMD-Net: Deep Stereo Matching with Multi-scale and Multi-dimension Cost Volume

paperAbstract在多尺度层面上，以不同尺度生成四个4D组合体，并将它们与编解码器过程相结合来预测初始视差估计。在多维层次上，构造了一个3D扭曲相关体(3D warped correlation volume)，并利用它对初始视差图进行残差学习。这两个维度的代价是相辅相成的，可以提高视差估计的性能。此外还提出了一种切换训练策略，以缓解预训练过程中出现的过拟合问题，进一步提高最终视差估计的泛化能力和精度。Motivation实际场景不仅需要具有最先进性能的方法，还需要实时速度和跨领域泛化，

2021-05-18 10:46:20 505

原创 HSM-Net: Hierarchical Deep Stereo Matching on High-resolution Images

paper codeAbstract应用端到端的框架，从粗到细的层次上递增地搜索对应关系。由于高分辨率立体数据集相对较少，我们引入了一个包含高分辨率立体对的数据集，用于训练和评估。Motivation1.立体匹配中的误差随深度的增加呈二次曲线增加，提供更高的分辨率可以带来更好的预估。但是高分辨率带来运行时间和内存开销的增加过大。2.对于缩小比例的图像可以得到更快的运行速度，但是预测的结果模糊且对远场的视差估计不准确。3.目前的SOTA算法在高分辨率数据集上表现不佳，主要原因是架构的不足和高分

2021-05-14 11:32:04 1365

原创 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Abstract递归全对场变换：一种新的光流深度神经架构。RAFT提取像素特征，对所有像素对建立多尺度4D关联体积，并且使用一个循环单元在关联体积上执行查找来迭代地更新光流场。Motivation光流的任务是预估视频帧之间的逐像素运动，受到各种困难的限制，包括快速移动的对象、遮挡、运动模糊和纹理相关的表面。optical flow在传统上被认为是一个手工优化问题，它覆盖了两个图像对，一般来说，优化目标定义了一种平衡，即鼓励视觉上相似的图像区域对齐的状态和对运动的合理性施加优先级的调整项。这种方法取得了

2021-05-13 20:46:56 2235 1

原创 Learning Spatial Fusion for Single-Shot Object Detection（ASFF）

Learning Spatial Fusion for Single-Shot Object Detection（ASFF）paper codeAbstract不同特征尺度之间的不一致性是基于特征金字塔的单炮探测器的主要限制。在这项工作中，提出了一种新颖的数据驱动的金字塔特征融合策略，称为自适应空间特征融合(ASFF)。它学习了空间过滤冲突信息的方法来抑制不一致性，从而提高了特征的尺度不变性，并且inference的消耗增加几乎没有。Motivation1.早期自下而上的路径实现多尺度特征提取会

2021-05-08 11:57:51 1006 3

原创 Receptive Field Block Net for Accurate and Fast Object Detection（RFB）

Receptive Field Block Net for Accurate and Fast Object Detection（RFB）paper codeAbstract受人类视觉系统感受野结构的启发，我们提出了一种新的感受野( RFB)模块，该模块考虑了感受野的大小和偏心度之间的关系，以提高特征的可分辨性和鲁棒性。Motivation1.过深层的网络提取特征带来过大的计算消耗和缓慢的推理速度。2.在人类视觉皮层中，群体感受野(population Receptive Field)的大小是视

2021-05-06 11:08:31 1406 1

原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 神经辐射场将场景表示用于视图合成

系列论文 https://github.com/yenchenlin/awesome-NeRF视频与演示 https://www.matthewtancik.com/nerfCore：使用完全连通(非卷积)的深度网络来表示场景，通过使用稀疏的输入视图集来优化底层的连续体积场景函数，从而获得用于合成复杂场景的新视图。查询相机光线上的5D坐标来合成视图，并使用经典的体绘制技术将输出的颜色和密度投影到图像中。建立5D矢量值函数的输入是3D位置x=(x，y，z)和2D观察方向(θ，φ)，它的输出是发射的颜色c=

2021-04-14 17:37:46 3033 1

原创 HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching

主要思想：没有明确构建代价体积，而是依赖于快速的多分辨率初始化步骤，可微分的2D几何传播和翘曲机制来推断出视差假设；将image tail表示为具有学习紧凑特征表征描述符的平面块。为了实现高度的精度，该网络不仅是在几何方面得到视差信息，而且而且还推断倾斜平面假设，从而允许更准确地执行几何扭曲和上采样操作。该架构本质上是多分辨率的，允许信息跨不同级别传播。Introduction将编码将视差分配给像素的成本的显式匹配成本体积与3D卷积结合在一起在精度方面提供了显著的改进，但代价是显著增加了计算量。后续工

2021-03-31 22:03:49 1699 1

原创 LEAStereo:Hierarchical Neural Architecture Search for Deep Stereo Matching

文中将NAS(神经体系搜索)应用于立体匹配，得到了应用于该领域网络架构的很多有用经验：1.特征网络不需要太深就能获得良好的性能；2.更大的特征体积量可以获得更好的性能(1/3比1/6好)；3.1/6分辨率的代价体积似乎适合于良好的性能；4.多尺度融合对于计算匹配代价似乎很重要(即，使用DAG融合多尺度信息)；5. 残差对网络很有用，6层特征提取和12层代价匹配层可以在速度和精度之间获得很好的均衡性能。但是网络的某些策略其实很原始：使用特征网中的特征直接用点积计算成本量，并用赢家通吃(WTA)策略将其投影

2021-03-31 21:31:06 1649 1

原创 Self-Attention 自注意机制学习笔记

SENet：Squeeze-and-Excitation Networks主要思路：语义分割中一项重要目标是提高卷积的感受野，即空间上融合更多特征融合，对于channel维度的特征融合，卷积操作基本上默认对输入特征图的所有channel进行融合。SENet的创新点在于关注channel之间的关系，使模型自动学习不同channel特征的重要程度，提出了Squeeze-and-Excitation (SE)模块：首先对卷积得到的特征图进行Squeeze操作（global pooling），得到channe

2021-03-23 21:00:36 947

weixin_42821501的博客

原创 [IJCAI 2024] | BRGScene: 桥接Stereo和BEV特征用于可靠的语义场景补全

原创 PatchmatchNet: Learned Multi-View Patchmatch Stereo

原创 SMD-Nets: Stereo Mixture Density Networks

原创 Transformer-ViT: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

原创 Vision Transformers for Dense Prediction

原创自注意力机制GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

原创 MSMD-Net: Deep Stereo Matching with Multi-scale and Multi-dimension Cost Volume

原创 HSM-Net: Hierarchical Deep Stereo Matching on High-resolution Images

原创 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

原创 Learning Spatial Fusion for Single-Shot Object Detection（ASFF）

原创 Receptive Field Block Net for Accurate and Fast Object Detection（RFB）

原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 神经辐射场将场景表示用于视图合成

原创 HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching

原创 LEAStereo:Hierarchical Neural Architecture Search for Deep Stereo Matching

原创 Self-Attention 自注意机制学习笔记

原创深度学习笔记整理（持续更新）

原创【语义分割semantic segmentation】--DeepLab（ASPP）系列学习笔记

原创 portainer新建container并修改相关配置

原创 pytorch常用函数

原创 pytorch中tensorboardX可视化网络使用踩坑

原创 linux下python版本查看与切换

原创 PYTORCH多层卷积神经网络实现MNIST手写数字识别(python3.7)

原创 pip和anaconda安装问题汇集

空空如也

空空如也