论文信息
-
论文标题:Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation
-
论文作者:Zhenyu Zhang, Zhen Cui, Chunyan Xu, Zequn Jie, Xiang Li, Jian Yang
-
研究机构:Nanjing University of Science and Technology;Tencent AI Lab
-
论文出处:ECCV 2018
-
引用信息:
@inproceedings{DBLP:conf/eccv/ZhangCXJLY18, author = {Zhenyu Zhang and Zhen Cui and Chunyan Xu and Zequn Jie and Xiang Li and Jian Yang}, editor = {Vittorio Ferrari and Martial Hebert and Cristian Sminchisescu and Yair Weiss}, title = {Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation}, booktitle = {Computer Vision - {ECCV} 2018 - 15th European Conference, Munich, Germany, September 8-14, 2018, Proceedings, Part {X}}, series = {Lecture Notes in Computer Science}, volume = {11214}, pages = {238--255}, publisher = {Springer}, year = {2018}, url = {https://doi.org/10.1007/978-3-030-01249-6\_15}, doi = {10.1007/978-3-030-01249-6\_15}, timestamp = {Sat, 29 Aug 2020 23:20:47 +0200}, biburl = {https://dblp.org/rec/conf/eccv/ZhangCXJLY18.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
-
代码链接:None
论文主要贡献和参考价值
-
主要贡献
- 提出新的联合任务递归学习框架,用于语义分割和深度估计任务,将问题序列化为任务交替的时间序列,TRL 可以渐进地优化两个任务,并使得两个任务可以相互优化
- 设计任务注意力模块使得两个任务的信息交互更有效,能够在网络中作为通用层或者通用模块使用
-
参考价值
- 多任务促进
-
信息选择处理
论文要点翻译
- 摘要
- 本文提出新的联合任务递归学习(Task-Recursive Learning, TRL)框架,用于闭环的语义分割和单目深度估计任务
- TRL 可以递归地优化两个任务的预测结果,这一过程主要通过序列化的任务级交互实现的,为了使得两个任务之间能够相互促进,本文将这种交互关系封装到一个特殊的任务注意力模块 TAM 中,以此适应性地增强两个任务中共同的模式特征
- 进一步地,为了使得预测结果更为可靠,将之前两个任务各自的学习经验传播到下一阶段的网络进化,主要通过将之前的响应进行显式地拼接
- 任务级的序列交互使得最终实现从粗粒度到细粒度的空间进化得以实现,需要的细节信息渐进地得到重建
- NYU-D v2 和 SUN RGBD 数据集上的实验结果说明了方法的有效性
- 引言
- 语义分割和单目深度估计是计算机视觉中两个极具挑战的任务,由于场景线索少、场景类型多、背景信息混杂、姿态改变和物体遮盖等问题,两个任务通常难以解决。最近,深度学习方法驱动的研究使得两个方法得到显著改善,在场景理解、机器人、自动驾驶等领域得到显著应用
- 虽然 CNN 方法在单目深度估计和语义分割两个任务上已经取得了巨大成功,但是这些方法都强调能学习到鲁棒的回归模型,但是很少考虑两个任务之间的交互;实际上,两个任务有许多共有的特性,可以加以利用,使两个任务能相互促进。例如:语义分割和场景的深度都是物体形状和边缘信息的布局。最近的工作也表明,利用 RGB-D 数据中的信息可以帮助改善语义分割的结果,因此,现有的研究应当考虑两个任务的联合学习训练,使得两个任务可以相互促进
- 现有的两个任务的联合学习方法都是对多任务学习的扩展,包含分类和检测等多项任务,但是这样的联合学习方法只是一种浅层的任务交互,例如,使用共有的特征编码器提取图像特征同时用于两个任务,在高层网络还是单独执行两个任务,这样的交互还是相对独立考虑两个任务,但是,众所周知,人类的学习是利用交互、循环的方式在不同任务之间获益的,例如,读和写两个任务是可以在不断交替的过程中相互提高的,因此,文本人文任务交替式的学习模式可以让深度学习方法得到进一步探索
- 为了解决这个问题,本文提出新的联合任务递归学习框架,将闭环的语义分割和室内场景深度估计两项任务同时解决,两个任务的交替被序列化为时间轴上的交互,在时间维度,两项任务相互交替优化,每一次的交互中,之前状态的历史经验被选择性地进行传播,用于估计新的状态
- 为了有效进行信息的传递,本文设计了任务注意力模块实现两个任务的相互关联,其中两个任务共有的和当前任务相关的有用信息将被加强而任务无关的信息则绕过,因此,两个任务的学习过程就被简单地模块化为一个序列网络,也就是本文所谓的任务递归学习网络
- 此外,考虑到高分辨率的像素级预测较为困难,本文设计的递归任务学习网络以粗粒度到细粒度的方式进行递归任务学习,可以将估计结果的细节信息进行渐进地优化
- 相关工作
- 深度估计:经典 CNN 方法、CRF 优化、双任务学习、语义分割促进
- 语义分割
- 多任务学习
- 方法
- 研究动机
- 本文关注两个任务的交替学习
- 动机1:人类从交替任务学习中获益
- 动机2:两个任务的组合在一定程度上除了共享相似的信息之外还能够互补
- 本文的目标是使得网络能更深层次地探索两个任务之间的交替相互作用,本文将这个过程形式化为一个时间维度的状态转换序列,用 D p D_p Dp 和 S P S_P SP 分别表示时间 p p p 阶段深度估计的任务状态和语义分割的任务状态,对应的回复响应为 f D p f_D^p fDp 和 f S p f_S^p fSp,之前的训练经验记为 F D p − 1 : p − k = { f D p − 1 , . . . , f D p − k } \mathcal F_D^{p-1:p-k}=\{f_D^{p-1},...,f_D^{p-k}\} FDp−1:p−k={fDp−1,...,fDp−k} 和 F S p − 1 : p − k = { f S p − 1 , . . . , f S p − k } \mathcal F_S^{p-1:p-k}=\{f_S^{p-1},...,f_S^{p-k}\} FSp−1:p−k={fSp−1,...,fSp−k} ,则在时间段 p p p 时的双任务学习可以形式化为 D p = Φ D p ( T ( F D p − 1 : p − k , F S p − 1 : p − k ) , Θ D p ) D^p=\Phi_D^p(\mathcal T(\mathcal F_D^{p-1:p-k},\mathcal F_S^{p-1:p-k}),\Theta_D^p) Dp=ΦDp(T(FDp−1:p−k,FSp−1:p−k),ΘDp) 和 S p = Φ S p ( T ( F D p − 1 : p − k , F S p − 1 : p − k ) , Θ S p ) S^p=\Phi_S^p(\mathcal T(\mathcal F_D^{p-1:p-k},\mathcal F_S^{p-1:p-k}),\Theta_S^p) Sp=ΦSp(T(FDp−1:p−k,FSp−1:p−k),ΘSp)
- 上述公式中的 T \mathcal T T 是任务交互函数,本文将其设计为任务注意力模块, Φ \Phi Φ 是预测下一个状态的转换函数,其参数为 Θ \Theta Θ
- 在时间片段 p,深度预测结果和之前的 k 阶段的经验以及语义分割的经验相关,语义分割预测结果也是类似的,通过这样的方式,使用 TAM 模块将时间序列上两个任务的历史信息进行传播,双任务的交互随着状态序列的推进而深化
- 网络架构
- 使用 ResNet 作为骨干网络对输入图像进行特征编码,将网络后4个阶段的输出作为多尺度的响应图
- 解码阶段则基于任务递归的方式进行双任务学习,解码器由上采样块、任务注意力模块、残差块组成,上采样块将卷积特征上采样到需要的尺度大小用于像素级预测
- 引入残差块用于像素级的预测,将前一阶段的特征进行解码
- 任务注意力模块主要关注两个任务之间的交互性,在交互中,之前积累的经验信息将被适应地选择用于当前任务的预测,随着交互时间的增长,两个任务之间以相互促进的方式进行渐进地优化
- 本文另一个重点策略在于粗粒度到细粒度的渐进细节重建,因此可以重建得到高分辨率输出,具体来说,本文将不同尺度的特征进行拼接,输入到对应尺度的残差块
- 任务注意力模块
- 语义分割和深度估计结果有许多相似的模式,为了更好地挖掘其中的边缘、边界、布局等共有信息,设计任务注意力模块用于增强两个任务的协相关信息
- TAM主要在残差块之前,输入深度或者分割的特征,经过两个源的输入均衡
- 在输入均衡时, f d , f s ∈ R H × W × C f_d,f_s \in R^{H \times W \times C} fd,fs∈RH×W×C 表示接收的深度和语义特征,均衡模块可以形式化为 B = S i g m o i d ( Ψ 1 ( c o n c a t ( f d , f s ) , Θ 1 ) ) B=Sigmoid(\Psi_1(concat(f_d,f_s),\Theta_1)) B=Sigmoid(Ψ1(concat(fd,fs),Θ1)) 和 f b = Ψ 2 ( c o n c a t ( B ⋅ f d , ( 1 − B ) ⋅ f s ) , Θ 2 ) f_b=\Psi_2(concat(B \cdot f_d,(1-B) \cdot f_s),\Theta_2) fb=Ψ2(concat(B⋅fd,(1−B)⋅fs),Θ2) ,其中的 Ψ \Psi Ψ 是参数为 Θ \Theta Θ 的卷积层,B 是学习到的均衡张量, f b f_b fb 则是将两个源信息组合后的均衡的输出
- 均衡的输出将被输入搭配一个 conv-deconv 层组成的序列中,这样的机制使得能够通过感受野变化获取不同的空间注意力,最终经过 Sigmoid 函数转换,得到注意图 M,该注意力图将更多地响应两个任务共有的模式
- 最终,注意力张量 M 被用于生成门控的深度或者语义分割特征 f d g = ( 1 + M ) ⋅ f d f_d^g=(1+M) \cdot f_d fdg=(1+M)⋅fd 以及 f s g = ( 1 + M ) ⋅ f s f_s^g=(1+M) \cdot f_s fsg=(1+M)⋅fs
- 上采样块
- 匹配不同尺度的分辨率
- 输入的 H × W × C H \times W \times C H×W×C 张量将被输入不同感受野的并行的卷积层,四个卷积层用于捕捉不同尺度的局部特征,四个层的响应将被拼接为大小为 H × W × 2 C H \times W \times 2C H×W×2C 的张量,最终,亚像素操作被用于空间上采样 P ( T h , w , c ) = T ⌊ h / r ⌋ , ⌊ w / r ⌋ , c ⋅ r ⋅ m o d ( w , r ) + c ⋅ m o d ( h , r ) \mathcal P(T_{h,w,c})=T_{\lfloor h/r \rfloor,\lfloor w/r \rfloor,c \cdot r \cdot \mod(w,r)+c \cdot \mod(h,r)} P(Th,w,c)=T⌊h/r⌋,⌊w/r⌋,c⋅r⋅mod(w,r)+c⋅mod(h,r)
- 训练损失函数
- 深度估计,使用逆 Huber 损失:$\mathcal L^D(d_i) = \left{\begin{array}{rl} |d_i|, &|d_i| \le c, & \ \frac{d_i2+c2}{2c}, & |d_i| \le c \end{array} \right. $
- 语义分割,使用交叉熵损失 L S \mathcal L^S LS
- 总的损失: L ( Θ , σ 1 , σ 2 ) = 1 σ 1 2 ∑ n = 1 N L n D + 1 σ 2 2 ∑ n = 1 N L n S + log ( σ 1 2 ) + log ( σ 2 2 ) \mathcal L(\Theta,\sigma_1,\sigma_2)=\frac 1 {\sigma_1^2} \sum_{n=1}^N \mathcal L_n^D+\frac 1 {\sigma_2^2} \sum_{n=1}^N \mathcal L_n^S + \log(\sigma_1^2)+ \log(\sigma_2^2) L(Θ,σ1,σ2)=σ121∑n=1NLnD+σ221∑n=1NLnS+log(σ12)+log(σ22)
- 为了避免除 0 错误,定义 δ = log σ 2 \delta=\log \sigma^2 δ=logσ2, L ( W , δ 1 , δ 2 ) = exp ( − δ 1 ) ∑ n = 1 N L n D + exp ( − δ 2 ) ∑ n = 1 N L n S + δ 1 + δ 2 \mathcal L(W,\delta_1,\delta_2)=\exp(-\delta_1) \sum_{n=1}^N \mathcal L_n^D+\exp(-\delta_2) \sum_{n=1}^N \mathcal L_n^S + \delta_1+ \delta_2 L(W,δ1,δ2)=exp(−δ1)∑n=1NLnD+exp(−δ2)∑n=1NLnS+δ1+δ2
- 研究动机
- 摘要