#今日论文推荐#CVPR 2017最佳论文得主刘壮博士论文:从另一视角看神经网络架构

#今日论文推荐#CVPR 2017最佳论文得主刘壮博士论文:从另一视角看神经网络架构

深度学习的基本原理可以追溯到几十年前,20 世纪 80 年代 Geoffrey Hinton 等人提出了基于梯度的反向传播学习算法,而 ConvNets 从早期就被应用于手写数字识别等计算机视觉任务。然而,深度学习的真正威力直到 2012 年才显露出来,那年 AlexNet 赢得了 ImageNet 大规模图像分类挑战赛。
之后数据可用性的提高、计算技术的进步和算法的改进使得深度学习持续取得成功。随着最近大型模型的兴起,这一领域的快速发展还没有显示出放缓的迹象。
深度学习不仅对我们的日常生活产生了显著的影响,还改变了机器学习从业者和研究人员的工作流程。新的设计原则不断被提出,例如 ResNet 引入残差连接、 Transformers 采用多头自注意力等。在算法不断发展的过程中,效率和可扩展性是两个不能忽视的概念,让视觉模型变得既小又大又成为另一需求。
怎样理解既小又大呢?小模型代表对效率的需求,因为视觉识别系统通常部署在边缘设备上;大型模型突出对可扩展性的需求,其可以利用日益丰富的计算和数据来实现更高的准确率。最近几年这两个方向的研究都取得了卓越成效,产生了许多有用的设计原则被后来的研究所采用。
本文中,来自 UC 伯克利的博士生刘壮(Zhuang Liu)在其博士论文《 Efficient and Scalable Neural Architectures for Visual Recognition 》中,从两个方面展开研究:1)开发直观的算法以实现高效灵活的 ConvNet 模型推理;2)研究基线方法以揭示扩展方法成功的原因。
具体而言,首先,本文介绍了关于密集预测的第一个随时算法研究。然后,该研究将模型剪枝算法与简单的基线方法进行比较来检查模型的有效性。最后研究者提出了这样一个问题,即通过采用 Transformer 中的设计技巧对传统的 ConvNet 进行现代化改造,来测试纯 ConvNet 所能达到的极限,并探索在视觉任务上自注意力机制在 Transformer 中的可扩展性上所起的作用。

论文题目:Efficient and Scalable Neural Architectures for Visual Recognition
详细解读:https://www.aminer.cn/research_report/630e0b4d7cb68b460f0fa93bicon-default.png?t=M7J4https://www.aminer.cn/research_report/630e0b4d7cb68b460f0fa93b
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值