CMU提出「十字绣网络」，自动决定多任务学习的最佳共享层

最新推荐文章于 2022-06-29 17:10:28 发布

PaperWeekly

最新推荐文章于 2022-06-29 17:10:28 发布

阅读量965

点赞数

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区，查看更多最新论文推荐。

这是 PaperDaily 的第 77 篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @Cratial。多任务学习是机器学习的重要组成部分，但是对于应用深度学习进行多任务学习时会遇到一个棘手的问题，那就是我们该如何确定网络的共享部分。针对不同的任务，其最佳共享层往往不同。

此外，针对不同的多任务学习，我们需要根据任务需求设计不同的共享层，并没有统一的标准。因此，本文针对这一问题设计了“十字绣”单元，通过端对端的学习来自动决定共享层。

如果你对本文工作感兴趣，点击底部阅读原文即可查看原论文。

关于作者：吴仕超，东北大学硕士生，研究方向为脑机接口、驾驶疲劳检测和机器学习。

■ 论文 | Cross-stitch Networks for Multi-task Learning

■ 链接 | https://www.paperweekly.site/papers/1969

■ 作者 | Ishan Misra / Abhinav Shrivastava / Abhinav Gupta / Martial Hebert

引出主题

多任务学习是机器学习的重要组成部分，但是在应用深度学习进行多任务学习时会遇到一个棘手的问题，那就是我们该如何确定网络的共享部分。针对不同的任务，其最佳共享层往往不同。

本文使用 AlexNet 网络分别进行图像检测、图像属性生成及图像语义分割、图像平面法向量生成（Surface Normal）等多任务学习。针对两个任务，作者分别从 fc8 层进行共享，一直测试到两者完全不进行共享的为止。

▲ 图1

实验结果如图 1 所示，其中，图 1（b）是不同共享层完全独立时的效果对比，可以看出对于任务一来说，共享部分在 conv4 时所能达到的效果，针对于任务二来说，在 fc7 层的效果最好。

“十字绣”单元与网络设计

Cross-stitch Unit

本文的核心就在这里，设计“十字绣”单元的思想如图 2 所示，通过在两个网络的特征层之间增加“十字绣”单元可以使网络自动学习到需要共享的特征。

▲ 图2

其中的“十字绣”单元就是一个系数矩阵。其表达式如式（1）所示。

针对这个“十字绣”单元如何进行端对端学习呢？作者给了具体的计算公式：

在下文中，为了方便，将 αAB 及 αBA 统称为 αD 表示不同任务的权重值，αAA 及 αBB 统称为 αS 表示相同任务的权重值。

“十字绣”网络设计

图 3 是作者通过对网络添加“十字绣”单元设计的网络。

▲ 图3

网络设计好之后，作者又针对网络提出了以下几个问题：

1. 如何对“十字绣”单元进行初始化，及如何设置“十字绣”单元的学习速率？

作者认为初始值设置应该在 [0,1] 之间，此外，作者还针对初始值及学习速率的设计进行了实验，以决定如何对两者进行设计能够达到最优效果。

2. 如何对网络 A 和 B 进行初始化？

如何对 A、B 进行初始化呢？作者提出了两种方案，第一种就是网络全用由 ImageNet 训练出的参数进行初始化，然后对整个“十字绣”网络进行训练。第二种是针对一种任务在网络上进行微调，然后再添加“十字绣”单元，并对网络进行训练。

参数选取

针对 2.2 中提到的两个问题，作者分别尝试了不同的策略来对参数进行选择。实验结果如表 1 所示：

▲ 表1

在对“十字绣”单元进行训练时作者发现，用来更新网络参数的学习速率相对于“十字绣”单元而言太小了，以至于无法得到好的效果，实验结果如表 2 所示：

▲ 表2

关于如何对网络 A、B 进行初始化，作者同样进行了实验，实验结果如表 3 所示：

▲ 表3

表 4 展示了在 αD 及 αS 取不同的初始值时，最终网络各层各个通道的 αD 及 αS 的值的分布情况。其中 αD 越大说明共享程度越大，αS 越大，说明特征的特殊性越强。

▲ 表4

实验及结果分析

为验证本文算法的有效性，作者分别在 NYU-v2 数据集进行了图像语义分割及图片平面法向量生成实验，在 PASCAL VOC 2008 数据集上进行了物体检测和属性预测实验。

作者分别针对单任务网络、结合两个单任务的网络（文中称为“ensemble”）、多任务网络（如图 1 中那样尝试在各个特征层共享特征）进行了实验。平面法向量生成及图像语义分割的实验结果如表 5 所示：

▲ 表5

从表 5 可以看出，使用“十字绣”单元的网络均能在两个任务上得到较好的结果。此外，作者分析在图像语义分割任务中，存在严重的数据匮乏问，如图 5 中黑线所示，wall、floor 的数据数量远超出其余的类别数，其中，蓝色柱状表示采用“十字绣”单元的多任务学习相对于单任务学习在效果上的增益，从图中可以看出，数量越少的类别所获得增益越多。

▲ 图5

图像检测及属性预测的实验结果及增益情况分别如表 6 及图 6 所示：

▲ 表6

▲ 图6