DenseNet发明者黄高:动态模型好在哪里?

智源导读:自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何?

 

12月10日晚,在【青源Talk】第 3 期上,清华大学助理教授,智源青年科学家黄高将计算机视觉中的深度神经网络结构设计从2012年至今的发展,划分为三个阶段,并分析了各个阶段的特点:

-> 2012-2015,为快速发展期;

-> 2015-2017,为成熟期;

-> 2017-至今,为繁荣期。

在此之后,黄高重点讲解了当下 CV 深度模型设计领域的两大研究方向,NAS 和动态网络,特别是后者。听其报告,我们能够感受到黄高的工作优美、简单且自然。

在演讲之后的交流中,黄高向与会的学生们强调了一条科研经验:研究需要韧性。

本文根据演讲内容整理,供读者参考。报告视频及PPT下载地址:

https://hub.baai.ac.cn/view/4937

整理:贾伟、周寅张皓

校对:廖璐

黄高 · 简介

黄高是清华大学自动化系助理教授,博士生导师。2015年获清华大学博士学位,2015年至2018年在美国康奈尔大学计算机系从事博士后科研工作。主要研究领域为深度学习和计算机视觉,提出了主流卷积网络模型DenseNet。目前在NeurIPS,ICML,CVPR等国际顶级会议及IEEE多个汇刊共计发表学术论文50余篇,被引用18000余次。获CVPR最佳论文奖、达摩院青橙奖、世界人工智能大会SAIL先锋奖、中国自动化学会优秀博士学位论文、全国百篇最具影响国际学术论文、中国人工智能学会自然科学一等奖和吴文俊优秀青年奖等荣誉,入选智源青年学者计划。

 

01

视觉模型的发展

 

在过去一些年里,计算机视觉领域涌现出许多经典的深度学习的网络架构。这说明网络的架构在深度学习(计算机视觉)中尤为重要。原因是什么?

 

黄高认为网络架构的重要性体现在四个方面,分别为:表达能力、优化特性、泛化性能和计算/存储效率。

  • 表达能力:不同网络结构,其表达能力显然不同。举例来说,线性模型,无论多深,仍然只是线性模型,其表达能力有限。

  • 优化性能:ResNet出现之前,所谓的“深度网络”并不很深,当时最深的GoogleNet、Inception等也仅 20 多层。这并非当时硬件不足,主要原因是梯度反传过程会出现梯度消失问题。ResNet以及后续的DenseNet通过结构上的改进,可以很好地改善这种问题。

  • 泛化性能:从本质上来说,神经网络是一个函数,训练网络即是拟合。网络的结构定义了函数的特性,同时也关系到它的泛化能力。

  • 计算/存储效率:当达到同样精度时,有的模型需要很大,有的模型却比较小;有的模型消耗计算资源很高,有的模型却相对要小得多。

 

02

神经网络结构三个阶段

 

从2012年至今,计算机视觉领域的深度学习网络模型经历了天翻地覆的变化。如何看待这些变化?

 

黄高将这 8 年多的黄金时期划分为三个阶段,分别为:2012-2015,快速发展期;2015-2017,成熟期;2017-至今,繁荣期。

 

如下图所示:

 

2012-2015的快速发展期:2012年,AlexNet在ImageNet比赛中一举挑战各种传统模型,让大家意识到深度学习在视觉任务中的潜力,从而掀起了一股研究热潮。随后不断涌现的很多深度模型都是围绕ImageNet进行设计,包括后来的VGG、GoogleNet等。这一阶段发展非常快速,每种模型都是从各自的角度对优化特性、泛化能力等进行改进。

 

<

  • 10
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 14
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值