VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

4月12日  下午  第一会场  深度学习模型设计

主持人:王乃岩——图森未来

 

题目:Deep High-Resolution Representation Learning for Visual Recognition

讲者:王井东——微软亚研

Convolutional Neural Network = Representation Learning

低分辨率表征学习 → 图像分类

高分辨率表征学习

 

首先,对于视觉任务,表征学习分为以下几个level。

现有很多结构的特征图变化是从高分辨率到低分辨率(VGG,AlexNet,ResNet)、高分辨率到低分辨率再到高分辨率(Unet,DeconvNet)。

还有中层分辨率,列举出了PSP和ASPP,应该是想说空洞卷积和多尺度等结构。

而目前遇到了以下问题,如果采用Unet结构,特征表示并不够强,如果去掉了下采样的结构,虽然分辨率变高了,但是计算量又太大了。

他们认为,要得到好的效果,低分辨率到高分辨率的过程不应该是仅仅是串行(增加网络深度)的而是并行的,同时还要在不同的尺度之间进行不断的信息交互,如下图:

总结一下他们的工作:就是将高分辨率和低分辨率进行并行处理,并且使得不同分辨率之间一直存在信息交互。所以提出了HRNets。(感觉并没有去解决高分辨率的特征图计算量大的问题,至少我没有听到看到关于这个的解释。)

 

题目:面向快速推理的卷积神经网络结构设计

讲者:黄高——清华大学

DenseNet的作者,听他讲了一遍感觉有很多体会和感悟,按照他讲的顺序来记录。

 

Part 1 Dense Connectivity

首先,他们提到了如何发现或者提出DenseNet的,在ResNet发表了之后,他们在对ResNet进行实验的时候,为了剪枝获得更好的收敛性,在ResNet上进行了改进,将每个skip上放上“一枚硬币”。在训练每个minibatch的时候,对于每个block都抛硬币,若为正面则将这个block保留,若为反面的话则直接将下面的block删除。也就是说,在每个minibatch上都随即丢掉一些block,此为随机深度网络。发现这个方法会有很好的效果,进而进一步实验,发现比较浅层的特征对深层的特征同样有重要作用。这就是DenseNet的motivation。

接下来提到了一下标准卷积和组卷积(以及条件放松的组卷积),探讨了一些问题,比如以后是否可以学习groupConv中的group连接?

Part 2 Adaptive Inference

为什么需要更深的网络模型?是为了提升performance。

而这样也导致了一个指数级别增长的参数量。

另外一个观察:有一些图片非常简单,有一些图片非常复杂

接下来引出了一个非常关键的一个观点:

Why do we use the same expensive model for all pictures?

既然图片有简单的有复杂的,那么为什么要把所有图片都做同样的操作。

进而导出了实际上我们现有的网络结构是存在大量的计算浪费的。

 

于是他们提出了要使用Multi-Scale features

这样的结构,使简单的图片直接从前面的classifier出去,减少了计算量,而复杂的图片经过复杂的处理从后面的classifier出去。(但是具体每张图片怎么判断是简单还是复杂没有提及,需要看看他们的论文)

Multi-scale dense network for efficient image classification, ICLR Oral, 2018

 

接下来总结了一些问题,关于Adaptive Inference的,分为五个方面:

  • Design:怎样去设计一个高效且合适的网络结构?
  • Training:怎样去高效的去训练一个动态网络?
  • Evaluation:怎样去高效地进行动态评估?
  • For other task:怎样将这个应用于其他的任务上?
  • Spatial or Temporal:到底是时域还是空域自适应?

 

题目:高效轻量级深度模型的研究与实践

讲者:张祥雨——旷视

CNN是深度视觉识别系统的核心,而作为一个模型的好坏与两方面相关,一方面是性能,另一方面是计算开销。

一般而言,准确度的提升会伴随着速度的下降。

同时需要考虑到任务与平台的差异性:

  • 理论复杂度与实际复杂度的差异
  • 任务不同,模型需求也不相同
  • 平台或任务额外约束

如果需要设计一个高效的模型,有以下基本的设计思路:

轻量级架构

模型裁剪

模型搜索

低精度量化

知识蒸馏

高效实现

于是提到了他们shuffleNet的工作,v1是有通道的稀疏连接,但是各个分组之间没有信息的链接和交互,v2进行了改进,但是有一些任务(如语义分割)则表现一般,其他任务则精度还不错。他们认为这是他们的Fast downsample的原因。

接下来是对于NAS的一些探索。现存的都是针对特定任务设计不同类型的网络模型,但是还存在”不可能三角”。

即效率、性能、灵活性。怎么去权衡。

后面介绍了一些模型裁剪的工作,但是没太听明白就不放上来了。

总结

 

题目:网络结构搜索的提速方法和训练技巧

讲者:谢凌曦——美国约翰霍普金斯大学(华为)

NAS狂热者

上来是两个观点:

  • Neural Architecture Search (NAS) is the future.
  • The future is approaching faster than we used to think.

 

但是由于我之前完全没有涉及这个领域,所以只能看个热闹,看看总结和未来工作。更多思考其实还是在Panel环节。

总结:

Block是否可以学习?怎样去遍历搜索空间?这些问题还需要去解决

未来工作

 

题目:基于直接稀疏优化的模型剪枝与网络结构搜索

讲者:王乃岩——图森未来

背景:

NAS is a pioneering task in AutoML.

几个关键点:

NAS as a complex discrete optimization problem

?

Find the best convex relaxation.

 

然后用到了稀疏搜索?

数据驱动的稀疏结构选择。

具体优化听不懂。

 

Panel

如何评价手工设计和NAS之间的关系,这一个问题涉及到NAS存在的基础。

张祥雨谈到ResNet构建,他们对googleNet进行实验,发现googleNet效果好的原因在于不是一味的加深网络层数,而是拓宽。进而发现,只要输入输出之间存在一个较短的通路,那么性能就不会太差。通过进一步实验,得出两个结论,一个是googlenet里面的1*1卷积非常重要,另一个是输入输出之间存在较短路是很重要的。所以接下来有了灵感,既然需要短路,那么就设计一个最短的路,就是直接前后都连起来,即ResNet。

NAS究竟应该搜索什么东西,比如搜索空间中是加入了很多人为的设计知识,人为知识到底需不需要,需要的话应该加入什么知识,都是问题。

NAS还有两个问题:

  • 下一代的数据在哪里?ImageNet可以说是我们这一代的数据,下一代的引领潮流的数据在哪里?
  • 搜索方法仍然不够好,搜索空间也是固定的。

领域的发展取决于:elegant model(通用性的模型)

NAS在某种程度上希望泛化不再存在,因为可以针对特定任务直接搜索即可。

越强大的模型,越具有过拟合的性质和潜力。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值