4.Deep Convolutional Neural Fields for Depth Estimation from a Single Image

论文在这儿

本篇论文的优势:

①我们不采用任何这些启发式方法改进我们的结果,但我们就相对误差而言取得了更好的结果。
②为了克服过拟合,其他方法必须收集数以百万计的带有附加标签的图像训练他们的模型。一个可能的原因是,他们的方法捕捉到绝对像素的位置信息,他们可能需要一个非常大的训练集覆盖所有可能的像素布局。相比之下,我们只使用没有任何额外数据的标准训练集,但我们获得相媲美,甚至更好的性能。
③我们的模型只有一元项的时候,相当于带有模糊边界的粗糙预测。通过加入平滑项,我们的模型产生了更好的可视化,接近ground-truth

大体概括

由于目前对单幅单目图像进行深度估计并没有合适的深度线索,所以以前的工作一直专注于几何先验或者是有手工制作特征的额外信息来源。另外,深度值的连续性的特性使得深度估计可以很自然地看成是一个连续的条件随机场CRF学习问题,它不依赖于任何的几何先验和额外的信息。

所以这篇论文提出了一个deep convolutional neural field model,通过共同探索deep CNN和连续CRF的能力(在统一deep CNN框架中学习连续CRF(使用CRF明确相邻超像素的关系)的一元和成对的势能),来进行估计单幅图像的深度(使用后向传播进行训练)。

此外,给定深度值的连续性,在概率密度函数中的分区函数(可积的)可以解析计算,因此,我们可以直接解决对数似然优化,而无需任何近似。

这篇论文所提出的方法可以用于一般场景的深度估计,这些场景没有任何几何先验或者额外的信息。此外,用MAP方法预测一幅新图像的深度,是高效的封闭式的解决方案。

Deep convolutional neural fields

【注】除非另有说明,否则本篇论文使用粗体大写和小写字母分别表示矩阵和列向量

①Overview

我们假设一幅图像是由小的均匀区域(超像素)组成,图模型是由结点组成,超像素表示图中的结点。
由于框架具有灵活性,因此可以应用在像素和超像素上。

每个超像素由它的质心(centroid)的深度所描述。我们使用x表示一幅图像, y = [y1, . . . , yn]T ∈ R_n表示图像x中所有的n个超像素所对应的连续深度值的一个vector。

类似于传统的CRF,我们下边的密度函数来建立数据的条件概率分布模型。
在这里插入图片描述
其中,E是势能函数(energy function);Z是配分函数(partition function),被定义为:
在这里插入图片描述
为了预测一个新图像的深度,we solve the maximum a posteriori(MAP) inference problem:
在这里插入图片描述

我们把势函数看成是在结点(超像素)N的一元势能U和在图像X边缘的成对势能V的组合
在这里插入图片描述
其中,一元项U的目的是回归单个超像素的深度值;成对项V鼓励有相似外观的邻近超像素采取相似的深度。我们的目标是在一个统一的CNN框架中,共同学习U和V.

An illustration of our deep convolutional neural field model for depth estimation.

【图片内容的大致解释】
The input image is first over-segmented into superpixels. In the unary part, for a superpixel p, we crop the image patch centred around its centroid, then resize and feed it to a CNN which is composed of 5 convolutional and 4 fully-connected layers .
In the pairwise part, for a pair of neighbouring superpixels (p, q), we consider K types of similarities, and feed them into a fully-connected layer.
The outputs of unary part and the pairwise part are then fed to the CRF structured loss layer, which minimizes the negative log-likelihood.
Predicting the depths of a new image x is to maximize the conditional probability Pr(y|x), which has closed-form solutions .

Note that the convolutional and the fully-connected layers are shared across all the image patches of different superpixels!!!
在这里插入图片描述

整个网络由一元部分(a unary part),成对部分(a pairwise part)和CRF损失层组成。
首先将一个输入图像,分割(over-segment)成N个超像素,我们考虑image patches围绕每个超像素的质心。

The unary part

将所有image patches resize为224×224 pixels后作为输入,放到每一个CNN中,输出一个包括n个超像素回归深度值的n维向量。
在这里插入图片描述
一元部分的网络由5个卷积和4全连接层组成。CNN的参数被所有的超像素共享。注意各层的激活函数问题
一个image patch输出一个超像素的一维实数值。

The pairwise part

把所有邻近超像素对的相似向量(每个包括k个组件)作为输入,把它们放在全连接层(参数被不同的超像素对共享),然后输出一个包含每个相邻超级像素对的所有一维相似性的向量。

The CRF loss layer

从一元部分和成对部分输出值作为CRF损耗层的输入来最小化负对数似然函数。

这个模型两个潜在的优点是:
1)实现平移不变性,因为我们构建一元势能不考虑超像素的坐标;
2)成对势能由邻近超像素的关系组成

②Potential functions

一元势能Unary potential

在这里插入图片描述
这里,z_p是由CNN参数θ参数化的超像素p的回归深度。

成对势能Pairwise potential

我们从相似观察值的K个类型构造成对势能,它们的利用邻近超像素的一致性信息执行平滑:
在这里插入图片描述
其中,R_pq表示一个相邻超像素对(p,q)在the pairwise part的输出,在这里我们使用一个全连接层:
在这里插入图片描述
在这里插入图片描述:第k个相似矩阵,它是对称的,其元素是在这里插入图片描述
在这里插入图片描述是神经网络的参数。

To guarantee Z(x)is integrable, we require β_k ≥ 0

我们通过颜色差异,颜色直方图差异和局部二进制模式(LBP)的纹理差距这三种类型来衡量成对相似性。其卷积形式为:在这里插入图片描述=在这里插入图片描述

Learning

在这里插入图片描述由于在公式中的势能函数y的二次项和A的正定性,我们可以解析计算公式(2)这个配分函数的积分:
在这里插入图片描述
则,根据公式(1),(10),(11),概率分布函数为:
在这里插入图片描述
【注】
x_(i),y_(i)指的是第i个训练函数和其对应的深度图。
N是指训练图片的数量。
λ1 and λ2 are weight decay parameters
我们使用基于后向传播的随机梯度下降(SGD)来进行公式的优化

在这里插入图片描述

在这里插入图片描述

Implementation details

我们基于高效的CNN工具箱VLFeat MatConvNet1实现了网络的训练。6GB的GPU可能无法在同一时间处理所有图像块,因此我们把一幅图像的超像素图像块分成两部分。在实施过程中,我们使用从 ImageNet中训练的CNN模型,初始化图2中一元部分的前6层。首先,我们不通过固定前6层进行反向传播和训练网络的其余部分,然后我们执行60 epoches报告预训练结果(学习速率下降两倍),然后我们使用相同的动量和权重衰减训练整个网络。

实验结果对比

在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制,可以提高模型的性能和效率。它通过对每个通道的特征图进行加权,使得网络可以更好地学习到重要的特征。ECA-Net的设计简单,易于实现,并且可以与各种深度卷积神经网络结构相结合使用。 ### 回答2: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制。 ECA-Net通过提出一种名为"Efficient Channel Attention"(ECA)的注意力机制,来增强深度卷积神经网络的性能。通道注意力是一种用于自适应调整不同通道的特征响应权重的机制,有助于网络更好地理解和利用输入数据的特征表示。 相比于以往的注意力机制,ECA-Net采用了一种高效且可扩展的方式来计算通道注意力。它不需要生成任何中间的注意力映射,而是通过利用自适应全局平均池化运算直接计算出通道注意力权重。这种方法极大地降低了计算和存储开销,使得ECA-Net在实际应用中更具实用性。 在进行通道注意力计算时,ECA-Net引入了两个重要的参数:G和K。其中,G表示每个通道注意力的计算要考虑的特征图的大小;K是用于精细控制计算量和模型性能之间平衡的超参数。 ECA-Net在各种视觉任务中的实验结果表明,在相同的模型结构和计算资源下,它能够显著提升网络的性能。ECA-Net对不同层级的特征表示都有显著的改进,能够更好地捕捉不同特征之间的关联和重要性。 总之,ECA-Net提供了一种高效并且可扩展的通道注意力机制,可以有效提升深度卷积神经网络的性能。它在计算和存储开销上的优势使得它成为一个非常有价值的工具,可在各种计算资源受限的应用中广泛应用。 ### 回答3: "eca-net: efficient channel attention for deep convolutional neural networks" 是一种用于深度卷积神经网络的高效通道注意力模块。这一模块旨在提高网络对不同通道(特征)之间的关联性的理解能力,以提升网络性能。 该方法通过引入了一个新的注意力机制来实现高效的通道注意力。传统的通道注意力机制通常是基于全局池化操作来计算通道之间的关联性,这种方法需要较高的计算成本。而ECA-Net则通过引入一个参数化的卷积核来计算通道之间的关联性,可以显著减少计算量。 具体来说,ECA-Net使用了一维自适应卷积(adaptive convolution)来计算通道注意力。自适应卷积核根据通道特征的统计信息来调整自身的权重,从而自适应地计算每个通道的注意力权重。这样就可以根据每个通道的信息贡献度来调整其权重,提高网络的泛化能力和性能。 ECA-Net在各种图像分类任务中进行了实验证明了其有效性。实验结果显示,ECA-Net在相同计算预算下,相比其他通道注意力方法,可以获得更高的分类精度。同时,ECA-Net还具有较少的额外计算成本和模型大小,使得其在实际应用中更加高效。 总结而言,"eca-net: efficient channel attention for deep convolutional neural networks" 提出了一种高效通道注意力方法,通过引入自适应卷积核来计算通道注意力,从而提高了深度卷积神经网络的性能。这一方法在实验中取得了良好的效果,并且具有较少的计算成本和模型大小。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值