深度学习：技术分享：联合学习，几个任务一起端到端的搞，如何让它们互相帮助呢？LSU：侧向共享单元

最新推荐文章于 2023-09-24 15:09:47 发布

非正经研究生

最新推荐文章于 2023-09-24 15:09:47 发布

阅读量1.7k

点赞数 2

分类专栏： # 单目测距文章标签：深度学习自动驾驶神经网络

本文链接：https://blog.csdn.net/paulkg12/article/details/120739125

版权

单目测距专栏收录该内容

19 篇文章 2 订阅

订阅专栏

看这篇论文

look deeper into depth: monocular depth estimation with semantic booster and attention-driven loss

的时候，在这里插入图片描述

碰到个用联合的老哥： jianbo jiao

当时，第一遍读文章的概要的阅读笔记，请看这里

摘要，从前人的工作 overview 一下

jianbo 联合了语义和深度。

其实有一些先前的工作，2018 年之前，就有人用联合和表征学习，意思是联合几个任务一起训练，互补彼此的弱点；它们是

16， 19， 20， 27， 38 ， 39， 51

展开讲讲过往

其中 27 是提出：语义深度分类器；并且分析了透视几何 (Pulling things out of perspective. In: CVPR) ；具体来说，就是物体的感知大小与投影中心的距离(深度)成反比；这导致的数据的不平衡，文章用分类的方法对这种不平衡进行了避免。更多请参考这篇文章

12 是用传统的网络，联合了语义，和 3d 重建（Joint 3D Scene Reconstruction and Class Segmentation）

51 用了 cnn ，加上一个 CRF: conditional random field. ,也是预测语义标签和深度 (Towards uniﬁed depth and semantic prediction from a single image) ,并且告诉我们，串联的两个网络，比如先语义标签网，然后深度预测网，这种方式不好，因为前面那个网络的一些打标签错误，就会接着传导到后面的深度预测网络里面；参考了这个文章
但是他们呢仅仅修改了最后的一个层，并且用了 super pixel ，和 CRF：条件随机场，一元势函数。太多的细节，可以去看15年他的论文：Towards uniﬁed depth and semantic prediction from a single image。

23 提出的是 concurrnet 工作，用一个有关权重的策略来关注多任务时候的losses；也同意：通过进行一定程度的共享不同任务之间的参数；参考文章，论文：Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

38 提出了 Cross-stitch units（十字绣单元）for 多任务的学习。尽管他的结果看起来比 baseline 好，但是会发生反向传播的污染（这种污染说是发生在联合weights 趋紧于 0 的时候），同时，jianbo 还说：两个平行的 cnn 增加了参数，和学习的复杂度。(Cross-stitch networks for multi-task learning)
在这里插入图片描述

18 这个方法呢，在每一个层之间，用了密集的连接，这能有助于辨别任务（recognition task)，但是对内存的消耗有些过分大了。
在这里插入图片描述

jianbo的work：协同增效，保持简洁

先来讲一个深度感知的协同网络

以前的 cnn 有个毛病，就是不平衡的 data，32，45 这俩文献，也说了在目标检测中的 data imbalance（但是本质上，深度测距，和目标检测里面的data imbalance 是不同的）。大部分运算都发生在近处的物体/像素。

在这里插入图片描述

因为视觉的原因，透视的原理，，注定了我们看近处的东西比较多，一叶障目嘛。

你费力增加训练数据，并不能解决这个问题。

数据都是这样，近处的像素就是多，在loss 计算过程中，对远处像素的 loss，简直是碾压的。这会导致我们的model 倾向于预测小的深度值。

为了解决这问题，jianbo 就给出一个跟深度成正比的 loss，如此这般，尽管远处物体的像素，在图像中的像素少，但是人家在最后的 loss 函数中，占的比例/比重不小，这就解决了 data imbalance.

到这里，还没讲网络的互相帮助呢

马上就讲；

文章里面有4 个部分，我理解是两个网络，两个辅助组件。

两个网络是

深度感知网络，测量距离的
语义标签网络，给图像物体打标签的

两个辅助的组件是：

LSU lateral share unit; 侧向共享单元；说侧是因为两个网络，数据前向走，这个组件在两个网络的侧面帮忙，让俩网络能边走边说话
attention drive loss，用注意力驱动的loss 函数；当然就是最终的优化目标了，把这个东西搞好了，网络效果就好了。

网络overview

在这里插入图片描述
值得我还投入思考的是： SUC 这个东西： semi-dense up-skip connections ，这东西，说是能让知识在单独的，各自的子网络（当然就是说的是 depth aware 网，和 semantic labeling 网）内部进行共享。有点像 resnet?

LSU 就是共享这个（接口/想法）的实现

本文正文来了：如何学会互帮互助，互利共赢，同时不干涉网络的内政

首先明确一点，手动给定网络之间的知识共享策略，比如共享多少，这种方式很难达到共享的最优解。所以用一个双向的机构，动态的结构，在前向，后向传播的过程中，都能使用的结构

具体怎么做的呢

在每两个 up conv 网之间，添加LSU ，也就添加了对面网络的残余（知识/表征）

这样，在传统的网络内部（intra task）知识共享之外，现在我们有了网络之间的（inter task) 知识共享。

LSU 同时从 intra 和 inter 的网络里面进行学习。

图示如下：

在这里插入图片描述
公式如下：

在这里插入图片描述

数学部分，讲讲公式

注： 单纯从数学表达的角度看，我倒是觉得这个 $LSU_{D2}$ 可以直接写成 $D 2$ 嘛

$\varphi_{D}$ , $\gamma_{D}$ 的意思就是就是给 D1 这个深度网络前一层的权重
同理 $\varphi_{S}$ , $\gamma_{S}$ 的意思就是给 S1 这个语义网络的前一层的权重。

在这里插入图片描述
这里的 $\varphi_{D}$ , $\gamma_{D}$ ， $\varphi_{S}$ , $\gamma_{S}$ 都是在传播过程中动态学习的。所以，信息在两个 up conv 的层中，有着动态的路由。
所有的 LSU 都是这个结构，但是他们的参数却是不同的，网络的每个阶段，信息在侧向如何共享，共享多少，可以就是灵活的了。

按照文章的说法，加上 1 的那一部分，就是叫做 identity mappings, 或者 identity connection(来自文献15）就是保持原有信息，避免来自对面网络的信息污染，这可叫做残差类似结构：residual-like structure. 同时，这也对梯度的反向传播有好处。
连续的 up conv 层，也比 encoder 这种方式，具有更少的参数。（这里对encoder 网络还是有点疑问，是全链接嘛？）

LSU 效果好吗？看图

在这里插入图片描述

从左到右，依次是：原始的RGB 图；
没带 LSU 的效果，；
带LSU，但是没有 identity mapping；
带 LSU 以及带 identity mappping
真实值

（有个地方没看懂，就是红色的那两块，在表达什么意思？肯定不是某个物体的距离吧？反正我们就看蓝色的这些部分）

可以看到：带 LSU ，右上角的橱柜，就边界清晰了。

有LSU但是没有 identity mapping，这就造成了一些 artifacts，右下角的橱窗。这里的意思，我猜次就是对比这两张图：
在这里插入图片描述
看看右下角：带 identify mapping 就保持了边界更加明晰，左边不明晰，就是因为来自对面语义的信息，过度污染了

本段结束

还没说的是，jianbo 的work 还用注意力机制关注远处的像素；

看看代码吧

可以回到我读这篇文章时候的笔记看，在最后一部分，搜索： LS_s11

非正经研究生

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习：技术分享：联合学习，几个任务一起端到端的搞，如何让它们互相帮助呢？LSU：侧向共享单元

看这篇论文look deeper into depth: monocular depth estimation with semantic booster and attention-driven loss的时候，碰到个用联合的老哥： jianbo jiao当时，第一遍读文章的概要的阅读笔记，请看这里摘要，从前人的工作 overview 一下jianbo 联合了语义和深度。其实有一些先前的工作，2018 年之前，就有人用联合和表征学习；它们是16， 19， 20， 27
复制链接

扫一扫