【专栏:前沿进展】“结构重参数化”是清华大学丁霄汉博士近年来提出的一种通用深度学习模型设计方法论。在青源 Live 第 34 期中,丁霄汉博士分享了题为「结构重参数化与通用视觉模型的基本设计元素」的报告,介绍了结构重参数化的起源和发展,以及他基于这一思想在改进单分支模型性能、设计卷积模型组件、模型剪枝等方向的相关研究工作。
本文整理自青源 LIVE 第 34 期,视频回放链接:
https://hub.baai.ac.cn/live/?room_id=210
主讲:丁霄汉
整理:熊宇轩
审校:李梦佳
丁霄汉博士基于“结构重参数化”思想设计的 RepVGG 系列模型已被旷视力、腾讯优图、云从科技、京东等公司应用于计算机视觉业务。Speakin 公司也使用该模型在“VoxCeleb Speaker Recognition”语音识别挑战赛中获得了冠军。该模型还被广泛应用于“Real-Time Quantized Image Super-Resolution on Mobile NPUs”等比赛,取得了不俗的成绩。此外,丁博士开发的 ACNet 和 DBB 被商汤科技用于著名的人脸识别大赛 MFW 2021,并获得了该赛事的冠军。
就学术界而言,结构重参数化思想近年来被广泛认可,研究者们将其应用于神经网络架构搜索(NAS)、语义分割等方面。例如,Yolov4 的作者 Alexey Bochkovskly 和 ImageNet 的作者 Jie Deng 教授在论文「Non-Deep Networks」中大量使用了结构重参数化方法。
以 RepVGG 为例,这种主干网络在精度和运算速度之间实现很好的折中,目前已获得 2100+ 的 Github stars。如上图所示,极简的 RepVGG 网络的准确率优于一些流行的主干网络。特斯拉研究总监Andrej Karpathy还在推特上推荐过RepVGG。