自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 [IJCAI 2024] | BRGScene: 桥接Stereo和BEV特征用于可靠的语义场景补全

本文是对IJCAI2024接受的文章 BRGScene: Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion的介绍,。代码已开源,欢迎大家试用和Star~

2024-07-13 17:27:00 941

原创 PatchmatchNet: Learned Multi-View Patchmatch Stereo

Abstract我们提出了PatchmatchNet,一种新的、可学习的拼接匹配级联公式,用于高分辨率多视点立体视觉。由于计算速度快,内存需求低,PatchmatchNet可以处理更高分辨率的图像,比使用3D成本体积规则化的竞争对手更适合在资源有限的设备上运行。我们首次在端到端可训练体系结构中引入了一种迭代多尺度Patchmatch算法,并对其核心算法进行了改进,提出了一种新的、可学习的自适应传播和每次迭代的评估方案。大量的实验表明,我们的方法在DTU, Tanks &Temple和ETH3D,但

2021-06-04 15:10:35 997

原创 SMD-Nets: Stereo Mixture Density Networks

paper | projectAbstract尽管在过去的几年中,深度学习大大提高了立体匹配的精度,但有效地恢复尖锐边界和高分辨率输出仍然具有挑战性。在本文中,我们提出了立体混合密度网络(Stereo Mixture Density Networks, SMD-Nets),这是一种简单而有效的学习框架,可与广泛的2D和3D体系结构兼容,改善了这两个问题。具体来说,我们利用双峰混合密度作为输出表示,并表明这允许在不连续点附近进行清晰而精确的视差估计,同时明确地对观测中固有的任意不确定性进行建模。此外,我

2021-06-03 22:14:29 880

原创 Transformer-ViT: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ABSTRACT在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持它们的整体结构不变。我们表明,这种对神经网络的依赖是不必要的,直接应用于图像块序列的纯transformer可以很好地执行图像分类任务。在图像识别benchmark上可以去到优秀的结果且消耗较少的资源。INTRODUCTION由于transformer的计算效率和可扩展性,它已经成为可能训练模型的空前规模,超过100B参数。随着模型和数据集的增长,性能仍没有饱和的迹象。在计算机视觉中,卷积架构仍然占主导地

2021-05-27 16:17:54 584

原创 Vision Transformers for Dense Prediction

paper:https://arxiv.org/abs/2103.13413code:https://github.com/intel-isl/DPTAbstract我们引入了密集视觉转换器,这是一种利用视觉转换器代替卷积网络作为密集预测任务的骨干架构。我们将视觉转换器的各个阶段的tokens组合成各种分辨率的类图像表示,并使用卷积解码器逐步将它们组合成全分辨率预测。转换器的主干过程表示在一个恒定的和相对高的分辨率,并在每个阶段有一个全局感受野。与完全卷积网络相比,这些属性允许密集视觉转换器提供更细粒

2021-05-24 20:21:00 2675 1

原创 自注意力机制GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

paper: https://arxiv.org/pdf/1904.11492.pdfPyTorch代码: https://github.com/shanglianlm0525/PyTorch-NetworksAbstractNL提出了一种开拓性的方法,通过将查询特定的全局上下文聚合到每个查询位置来捕获长期依赖关系。然而分析发现NL网络建模的全局上下文对于图像中的不同查询位置几乎是相同的。在本文中,我们利用这一发现创建了一个基于查询独立公式的简化网络,它保持了NLNet的准确性,但计算量显著减少。我们

2021-05-23 14:39:12 2355

原创 MSMD-Net: Deep Stereo Matching with Multi-scale and Multi-dimension Cost Volume

paperAbstract在多尺度层面上,以不同尺度生成四个4D组合体,并将它们与编解码器过程相结合来预测初始视差估计。在多维层次上,构造了一个3D扭曲相关体(3D warped correlation volume),并利用它对初始视差图进行残差学习。这两个维度的代价是相辅相成的,可以提高视差估计的性能。此外还提出了一种切换训练策略,以缓解预训练过程中出现的过拟合问题,进一步提高最终视差估计的泛化能力和精度。Motivation实际场景不仅需要具有最先进性能的方法,还需要实时速度和跨领域泛化,

2021-05-18 10:46:20 443

原创 HSM-Net: Hierarchical Deep Stereo Matching on High-resolution Images

paper codeAbstract应用端到端的框架,从粗到细的层次上递增地搜索对应关系。由于高分辨率立体数据集相对较少,我们引入了一个包含高分辨率立体对的数据集,用于训练和评估。Motivation1.立体匹配中的误差随深度的增加呈二次曲线增加,提供更高的分辨率可以带来更好的预估。但是高分辨率带来运行时间和内存开销的增加过大。2.对于缩小比例的图像可以得到更快的运行速度,但是预测的结果模糊且对远场的视差估计不准确。3.目前的SOTA算法在高分辨率数据集上表现不佳,主要原因是架构的不足和高分

2021-05-14 11:32:04 1274

原创 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Abstract递归全对场变换:一种新的光流深度神经架构。RAFT提取像素特征,对所有像素对建立多尺度4D关联体积,并且使用一个循环单元在关联体积上执行查找来迭代地更新光流场。Motivation光流的任务是预估视频帧之间的逐像素运动,受到各种困难的限制,包括快速移动的对象、遮挡、运动模糊和纹理相关的表面。optical flow在传统上被认为是一个手工优化问题,它覆盖了两个图像对,一般来说,优化目标定义了一种平衡,即鼓励视觉上相似的图像区域对齐的状态和对运动的合理性施加优先级的调整项。这种方法取得了

2021-05-13 20:46:56 2153 1

原创 Learning Spatial Fusion for Single-Shot Object Detection(ASFF)

Learning Spatial Fusion for Single-Shot Object Detection(ASFF)paper codeAbstract不同特征尺度之间的不一致性是基于特征金字塔的单炮探测器的主要限制。在这项工作中,提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF)。它学习了空间过滤冲突信息的方法来抑制不一致性,从而提高了特征的尺度不变性,并且inference的消耗增加几乎没有。Motivation1.早期自下而上的路径实现多尺度特征提取会

2021-05-08 11:57:51 944 3

原创 Receptive Field Block Net for Accurate and Fast Object Detection(RFB)

Receptive Field Block Net for Accurate and Fast Object Detection(RFB)paper codeAbstract受人类视觉系统感受野结构的启发,我们提出了一种新的感受野( RFB)模块,该模块考虑了感受野的大小和偏心度之间的关系,以提高特征的可分辨性和鲁棒性。Motivation1.过深层的网络提取特征带来过大的计算消耗和缓慢的推理速度。2.在人类视觉皮层中,群体感受野(population Receptive Field)的大小是视

2021-05-06 11:08:31 1335 1

原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 神经辐射场将场景表示用于视图合成

系列论文 https://github.com/yenchenlin/awesome-NeRF视频与演示 https://www.matthewtancik.com/nerfCore:使用完全连通(非卷积)的深度网络来表示场景,通过使用稀疏的输入视图集来优化底层的连续体积场景函数,从而获得用于合成复杂场景的新视图。查询相机光线上的5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。建立5D矢量值函数的输入是3D位置x=(x,y,z)和2D观察方向(θ,φ),它的输出是发射的颜色c=

2021-04-14 17:37:46 2936 1

原创 HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching

主要思想:没有明确构建代价体积,而是依赖于快速的多分辨率初始化步骤,可微分的2D几何传播和翘曲机制来推断出视差假设;将image tail表示为具有学习紧凑特征表征描述符的平面块。为了实现高度的精度,该网络不仅是在几何方面得到视差信息,而且而且还推断倾斜平面假设,从而允许更准确地执行几何扭曲和上采样操作。该架构本质上是多分辨率的,允许信息跨不同级别传播。Introduction将编码将视差分配给像素的成本的显式匹配成本体积与3D卷积结合在一起在精度方面提供了显著的改进,但代价是显著增加了计算量。后续工

2021-03-31 22:03:49 1587 1

原创 LEAStereo:Hierarchical Neural Architecture Search for Deep Stereo Matching

文中将NAS(神经体系搜索)应用于立体匹配,得到了应用于该领域网络架构的很多有用经验:1.特征网络不需要太深就能获得良好的性能;2.更大的特征体积量可以获得更好的性能(1/3比1/6好);3.1/6分辨率的代价体积似乎适合于良好的性能;4.多尺度融合对于计算匹配代价似乎很重要(即,使用DAG融合多尺度信息);5. 残差对网络很有用,6层特征提取和12层代价匹配层可以在速度和精度之间获得很好的均衡性能。但是网络的某些策略其实很原始:使用特征网中的特征直接用点积计算成本量,并用赢家通吃(WTA)策略将其投影

2021-03-31 21:31:06 1591 1

原创 Self-Attention 自注意机制学习笔记

SENet:Squeeze-and-Excitation Networks主要思路:语义分割中一项重要目标是提高卷积的感受野,即空间上融合更多特征融合,对于channel维度的特征融合,卷积操作基本上默认对输入特征图的所有channel进行融合。SENet的创新点在于关注channel之间的关系,使模型自动学习不同channel特征的重要程度,提出了Squeeze-and-Excitation (SE)模块:首先对卷积得到的特征图进行Squeeze操作(global pooling),得到channe

2021-03-23 21:00:36 898

原创 深度学习笔记整理(持续更新)

portainer新建container并修改相关配置pytorch中tensorboardX可视化网络使用踩坑【语义分割semantic segmentation】–DeepLab(ASPP)系列学习笔记

2021-01-17 19:50:14 201

原创 【语义分割semantic segmentation】--DeepLab(ASPP)系列学习笔记

关键问题概要:像素级稠密预测任务中为提高感受野通常采用池化采样降低分辨率,容易丢失关键信息;必要的多尺度特征提取能力有助于对场景中不同尺寸大小的物体信息进行捕获,提高特征表现能力;DCNNS对局部图像转换的内置不变性有助于学习日益抽象的数据表示。这种不变性对分类认为是可取的,但会阻碍密集的预测任务。DeepLabV1&V2DeepLabv1: Semantic Image Segmentation with Deep Convolutional Nets, and Fully Connec

2021-01-17 14:05:44 2284

原创 portainer新建container并修改相关配置

选择要拉取的镜像,设置host的port端口,容器端口一般默认22修改必要的其他设置安装ssh服务并启动serverapt-get updateapt-get upgradeapt-get install openssh-server/etc/init.d/ssh start修改ssh登录选项,允许root账号登陆,并重设root账号密码vim /etc/ssh/sshd_...

2020-03-01 12:22:39 6589

原创 pytorch常用函数

tensor的加法torch1.3.0 对于error_mat = ((delta >= 0.05 * (target_disp[mask])) == 2) + (delta >= 3.0)这样的加法不要加最外侧括号,否则会出错,torch1.1.0亲测加不加最外侧括号效果一致。tensor的维度torch.squeeze(x, 0) 去掉第一个维度,需要改维度的个数为1才能生效...

2020-02-27 11:41:50 252

原创 pytorch中tensorboardX可视化网络使用踩坑

pytorch中要使用tensorboard需要以下环境:1.python 3.6+2.Pytorch 0.4.0+3.tensorboardX: pip install tensorboardX、pip install tensorflowwindows下要实现命令行操作tensorboard需要提前配置好环境变量,如果使用anaconda一般需要在系统变量的path中添 加C:\U...

2020-02-22 14:12:25 1896 3

原创 linux下python版本查看与切换

python2和python3不兼容的地方很多,可以使用python 2to3.py -w E:/test.py自动转换,使用前需要先切换到D: -> cd D:\Program\Python3.7.1\Tools\scripts目录下。同样3转2可以先安装一个Python包:lib3to2 (命令行pip install lib3to2),然后以相同方法转换。但有时需要切换不同pyth...

2020-02-16 15:29:55 797

原创 PYTORCH多层卷积神经网络实现MNIST手写数字识别(python3.7)

根据模式识别作业要求写的,总结了以下几点需要注意:1.主程序段需要加上 # if name == ‘main’: # 否则当做class调用时会直接将该文件重新跑一遍。2.分类任务的网路最后一个全连接层替换成1*1卷积层目前看来可以降低运算量,产生激活作用降低过拟合,训练效果改善明显。3.添加Batch normalization效果不明显,可能是batch量过小,以后进一步学习和尝试g...

2020-01-03 10:07:20 534

原创 pip和anaconda安装问题汇集

#anaconda使用本地whl文件安装opencv如果使用anaconda时solving environment一直出问题可以尝试本地安装python各类型库网站https://www.lfd.uci.edu/~gohlke/pythonlibs/下载后将whl文件复制到C:\Users\BOOM\Anaconda3\Lib\site-packages使用anaconda或cmd安装...

2019-12-03 11:20:37 310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除