【论文简述】Long-range Attention Network for Multi-View Stereo(WACV 2021)

一、论文简述

1. 第一作者:Xudong Zhang

2. 发表年份:2021

3. 发表期刊:WACV

4. 关键词:MVS、注意力、级联、监督回归

5. 探索动机:先前的方法忽略了像素之间的依赖关系,并且期望回归的方式效率不高。

  • However, this pixel-wise operation ignores the interdependence among pixels, since its calculation of matching degree for each pixel pair is produced independently from the other pixel pairs. As a result, the constructed cost volume computed from image features could be noise-contaminated and inconsistent, which is often not conducive to the dense matching on occluded or texture-less regions.
  • previous methods predict depth maps from the expectation of probability volume distributions which express the possibility of different depth hypotheses. However, existing volume learning methods are driven by the depth regression, which are implicit and not very efficient, considering that different probability distributions might share the same expectation. Also, the optimal distribution should be a Gaussian distribution, which has the highest probability at the true depth. As illustrated in Fig. 1, for those falsely matched pixels, their probability distributions are far from optimal, since they might be not effectively supervised by the intermediate layer. Therefore, it becomes essential to explicitly supervise the probability volume distribution.

6. 工作目标:解决上述问题

7. 核心思想:注意力机制,ASPP正则化,高斯中间监督

  • We introduce a long-range attention network for MVS to selectively aggregate reference features to each position to capture the interdependence among pixels. Our method instinctively facilitates propagating more guiding information to measure the similarity between reference and other source images.
  • We introduce a new loss to supervise the distribution of probability volumes reasonably centered at the true depth, which can enhance robustness of the network to reconstruct new objects.

8. 实验结果:SOTA

We achieve the best overall performance on the DTU and Tanks & Temples benchmarks, largely surpassing the state-of-the-art methods by up to 3.7% for the overall scores.

 9.论文下载:

https://openaccess.thecvf.com/content/WACV2021/papers/Zhang_Long-Range_Attention_Network_for_Multi-View_Stereo_WACV_2021_paper.pdf

二、实现方法

1. LANet概述

LANet采用从粗到细的结构,逐步预测更精细的深度图。假设有一个参考图像I1和N−1个源图像{In}。

  1. 利用特征金字塔网络(FPN)提取3个分辨率的多尺度深度图像特征{fln};
  2. 将每对深度特征{fln}输入到所提出的远程注意模块(LAM)中,得到注意力金字塔特征;
  3. 基于前一阶段预测的自适应深度假设,构建3D代价体;
  4. 利用3D卷积网络和ASPP对代价体进行正则化,预测深度概率分布,回归得到深度图;
  5. 此外,还利用一种新的概率体损失作为中间监督,将中间概率体约束为高斯分布,并结合深度回归损失来监督网络训练;

​2. 长距离的注意力

注意力金字塔特征提取器如下。首先利用特征金字塔网络(FPN)来提取多尺度特征,然后将它们输入到长距离注意力模块(LAM)中。LAM主要分为两个步骤。第一步通过基于注意力的二阶池化将参考f1的关键特征收集到全局描述符Gl,将整个特征空间嵌入到一个信息紧凑包中。第二步通过自适应选择这些具有信息的参考描述符Gl到输入特征的每个位置{fn} 来聚合相互依赖性,得到注意力输出{Zn}

参考全局描述符。给定参考特征f1C×H×W,首先利用不同的卷积层将其分别嵌入到两个新的特征映射A, B∈C×H×W。然后重塑为C×(HW),其中HW是像素的数量。为了便于解释,重写A = [a1,…,ahw]和B= [b1,,bc],其中aic维的列向量,bjhw维的列向量。全局描述符G = [g1,,gc]∈C×C可以通过基于注意力的二阶池化将整个特征空间嵌入到一个紧凑包中来计算,通过加权bj合并局部特征{ai}hw得到基元gj是:

 其中应用softmax函数将bj归一化为单位和的函数,接着进行二阶注意力池化过程,bj,i表示bj的第i个元素。这一步提供了一种获得参考信息特征的有效方法。例如,如果所有位置都密集的注意到bj,可以获得纹理和光照特征。相反,如果bj在特定区域上稀疏的注意到,我们可以获得语义特征,例如一个物体。

依赖聚合。聚合具有丰富信息的参考描述符和所有输入特征{fn}N N =1的每个位置之间的相互依赖关系。为了方便起见,我们详细描述了一个输入特征f的依赖聚合过程,这样的操作可以是并行应用于其他输入特征。首先应用卷积层将输入特征f嵌入到新特征映射VC×H×W中。重写V = [v1 vhw],其中vi表示局部输入特征的c维列向量。在需要局部特征vi的条件下,自适应地选择输入f的每个位置i的具有丰富信息的参考描述符{gj}c来聚合相互依赖性,得到注意力输出,表示为[z1, zhw]C×(HW)。对于每个位置i,zi可以计算为:

 其中vi,j表示vi的第j个元素,通过softmax进行归一化得到vi,j。结果表明,这种软注意力操作具有较好的收敛性。

注意力金字塔特征。为了回归有细密纹理的深度图,采用了一个类似金字塔的结构来捕获不同尺度上的多层次相互依赖关系,以逐步构建更高分辨率的代价体。应用于不同层次的LAM模块会生成多个包含不同相互依赖程度的注意力特征{Zl}3,高层级信息有助于重建反射或遮挡区域,低层级信息有助于精确定位像素。

3. 深度预测

获得注意力的特征后,如MVSNet一样构建3D代价体。与U-Net相比,用ASPP模块取代了编码器架构的最后两层,用于正则化代价体。ASPP模块使网络能够有效地扩大感受野,以融合远距离上下文。其中ASPP在三个阶段的结构是相同的,但不共享权重,分别处理多尺度代价体。卷积网络的最后一层是深度的softmax,用于预测像素深度概率体P。对于给定的l级,假设像素x处的深度假设为dl(x),范围从d1dK,其中K表示深度平面的数量,PK(x)表示像素x处深度为dlK的可能性。利用沿深度方向的期望值计算第l级上每个像素x的估计深度:

4. 组合损失函数

先前工作用L1深度损失来训练网络。然而,它忽略了概率体作为中间层被间接监督,这使得它的分布较少受到约束。为了解决这个问题,提出了一种新的概率体损失,结合深度损失来有效地训练网络。

概率体损失。假设像素x的深度假设的范围从d1dK,真实深度为。概率体Pk(x)是像素x深度为dk的概率。因此,预测的概率体在深度′的概率最大,且随着离真实深度越远概率逐渐减小。这个性质要求概率分布在真实概率体中每个位置的真实深度处达到峰值,服从期望为的类高斯分布。像素x真实概率体定义为:

其中cˆk(x)表示深度假设dk(x)与真深度之间的归一化距离,σ是控制真实深度附近峰值锐度的方差。不同的像素应有不同的锐度。例如,那些确定匹配的像素应该有一个尖锐的峰值,而那些不确定的像素则有一个相对平坦的峰值。

为了为概率体建立更合理的标签,利用置信度分数图s[0,1]H×W自适应地预测每个像素的σ。大分数s表示更匹配自信,小分数表示匹配不明确。因此,可以用概率分布的单峰来测量估计的置信度。那么,生成真实值的分布的σ计算为:

其中α是反映σ对置信度s变化敏感性的比例因子,β定义了σ的下界,避免了除0的数值问题。像素x处,得到了估计的概率体Pk(x)和真实Pˆk(x)。概率体损失可以通过交叉熵来定义:

其中Ω表示有效的真实像素集。

深度损失。与MVSNet类似,利用L1测量真实深度D与估计深度D之间的绝对差,定义损失为:

组合损失。用损失函数来监督所有三个阶段,阶段权值为{γl}3。在每阶段,综合损失是深度损失Ll d和概率体损失Ll p的加权和。总损失定义为:

其中λ为损失权重,以平衡深度损失和概率体损失。

5. 实验

5.1. 数据集

DTU Dataset、Tanks and Temples

5.2. 实现

通过PyTorch实现,使用DTU数据集训练。 对于DTU,图像分辨率为640 × 512,输入图像的数量N = 3。由Adam优化器端到端训练,批大小为16,在8个NVIDIA GTX 1080Ti GPU上训练。

5.3. 基准结果

DTU数据集基准:SOTA

Tanks & Temples:SOTA 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
自动控制节水灌溉技术的高低代表着农业现代化的发展状况,灌溉系统自动化水平较低是制约我国高效农业发展的主要原因。本文就此问题研究了单片机控制的滴灌节水灌溉系统,该系统可对不同土壤的湿度进行监控,并按照作物对土壤湿度的要求进行适时、适量灌水,其核心是单片机和PC机构成的控制部分,主要对土壤湿度与灌水量之间的关系、灌溉控制技术及设备系统的硬件、软件编程各个部分进行了深入的研究。 单片机控制部分采用上下位机的形式。下位机硬件部分选用AT89C51单片机为核心,主要由土壤湿度传感器,信号处理电路,显示电路,输出控制电路,故障报警电路等组成,软件选用汇编语言编程。上位机选用586型以上PC机,通过MAX232芯片实现同下位机的电平转换功能,上下位机之间通过串行通信方式进行数据的双向传输,软件选用VB高级编程语言以建立友好的人机界面。系统主要具有以下功能:可在PC机提供的人机对话界面上设置作物要求的土壤湿度相关参数;单片机可将土壤湿度传感器检测到的土壤湿度模拟量转换成数字量,显示于LED显示器上,同时单片机可采用串行通信方式将此湿度值传输到PC机上;PC机通过其内设程序计算出所需的灌水量和灌水时间,且显示于界面上,并将有关的灌水信息反馈给单片机,若需灌水,则单片机系统启动鸣音报警,发出灌水信号,并经放大驱动设备,开启电磁阀进行倒计时定时灌水,若不需灌水,即PC机上显示的灌水量和灌水时间均为0,系统不进行灌水。
智慧农业是一种结合了现代信息技术,包括物联网、大数据、云计算等,对农业生产过程进行智能化管理和监控的新模式。它通过各种传感器和设备采集农业生产中的关键数据,如大气、土壤和水质参数,以及生物生长状态等,实现远程诊断和精准调控。智慧农业的核心价值在于提高农业生产效率,保障食品安全,实现资源的可持续利用,并为农业产业的转型升级提供支持。 智慧农业的实现依赖于多个子系统,包括但不限于设施蔬菜精细化种植管理系统、农业技术资料库、数据采集系统、防伪防串货系统、食品安全与质量追溯系统、应急追溯系统、灾情疫情防控系统、农业工作管理系统、远程诊断系统、监控中心、环境监测系统、智能环境控制系统等。这些系统共同构成了一个综合的信息管理和服务平台,使得农业生产者能够基于数据做出更加科学的决策。 数据采集是智慧农业的基础。通过手工录入、传感器自动采集、移动端录入、条码/RFID扫描录入、拍照录入以及GPS和遥感技术等多种方式,智慧农业系统能够全面收集农业生产过程中的各种数据。这些数据不仅包括环境参数,还涵盖了生长状态、加工保存、检验检疫等环节,为农业生产提供了全面的数据支持。 智慧农业的应用前景广阔,它不仅能够提升农业生产的管理水平,还能够通过各种应用系统,如库房管理、无公害监控、物资管理、成本控制等,为农业生产者提供全面的服务。此外,智慧农业还能够支持政府监管,通过发病报告、投入品报告、死亡报告等,加强农业产品的安全管理和质量控制。 面对智慧农业的建设和发展,存在一些挑战,如投资成本高、生产过程标准化难度大、数据采集和监测的技术难题等。为了克服这些挑战,需要政府、企业和相关机构的共同努力,通过政策支持、技术创新和教育培训等手段,推动智慧农业的健康发展。智慧农业的建设需要明确建设目的,选择合适的系统模块,并制定合理的设备布署方案,以实现农业生产的智能化、精准化和高效化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华科附小第一名

您的支持对我的前行很重要!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值