专访 Swin Transformer 作者胡瀚：面向计算机视觉中的「开放问题」原创

最新推荐文章于 2024-03-08 22:26:25 发布

极市平台

最新推荐文章于 2024-03-08 22:26:25 发布

阅读量749

点赞数

文章标签： transformer 计算机视觉人工智能

本文链接：https://blog.csdn.net/Extremevision/article/details/122056692

版权

文 | 刘冰一、Echo
编辑 | 极市平台
本文原创首发于极市平台，转载请获得授权并标明出处。

胡瀚，湖北潜江人，本博均毕业于清华大学自动化系，曾就职于百度研究院深度学习实验室，目前任职于微软亚洲研究院视觉计算组。近期他和团队的“ Swin Transformer：Hierarchical Vision Transformer Using Shifted Windows ” 摘得 ICCV 2021 马尔奖（最佳论文奖）。

1 从看闲书谈起

科研人员闲暇做什么？也许千人千面。胡瀚在微软亚洲研究院工作，周末他偏好窝在家里看书作消遣。此外，他在工作日早晚也会挤出一段时间用来阅读。最近在看先秦两汉时代的书，翻着翻着他脑海里会闪现一些和工作中的互通之处。比如，那时诸子百家百花齐放，制度创新层出不穷，但这些思想和制度的创新大都是在前人的基础上进行的改进，以此适应最新的社会经济变化。他感慨做研究最好要做到心中有基准线，了解历史的演进过程以及目前支撑技术和生态的变化，这样才能更好地指引研究前进的方向。

《送东阳马生序》中有一句话：「幼时即嗜学，家贫，无从致书以观」。胡瀚的情况跟这有些相似，他从小便喜欢读书，兴趣浓时废寝忘食，索性村里小学的图书馆加一张床，每天泡在书海里。虽然后来学了理科，但他的阅文比较广泛，古今中外兼容并包，他最爱在历史书中索趣，他认为梳理历史脉络有助于树立“大局观”和“联系思维”。

“全局意识”对他学业和科研助益颇深。在思考问题的时候，他常常能够从眼前孤立的局部跳出来，探讨在更大的图景中对正确方向的把握。 比如博士期间做视觉分割问题，他打破常规的纯工程角度，试图从人的视觉机制中寻找灵感，以指导和启发新算法的设计，这样最终形成的博士论文不再是纯工程模块的罗列，而是形成了更体系性和前瞻性的思考。

胡瀚对历史有许多自己的思考。说起喜欢的历史人物，他钦佩对人类思想变革有贡献的人，比如宣扬知行合一的王阳明；从底层做起、人格完整的的富兰克林，他的价值观智慧且实在；以及杰斐逊，时值美国建国思想大变革之际，他的政治理念和实践对人类社会的贡献功不可没。开卷有益，博览群书，无功利目的地海量阅读，使他形成了宽厚的知识塔基和灵敏的心智结构，从而在科研输出时尽量“知识自由”“引证自由”。

《卡萨布兰卡》里写到，「你如今的气质里，藏着你走过的路，读过的书和热爱的人。」践行知行合一，胡瀚把书里学到的应用在日常中，他向思想先锋们看齐，勇担最新鲜、最坦率的青年之责。

2 勇于尝试，向优秀的人学习

胡瀚觉得自己属于理解和适应能力比较好的一类人，运气也比较好，凭借悟性和幸运考入清华。校园里厉害的人太多了，他也不拧巴，成长过程一切顺其自然。

身边的人优秀，会刺激自己变得更优秀，但不会对自己预期过高，我是个普通人，跟天才还是有差距的，并不会因为看到比自己厉害的人而心态失衡。

就像人工智能中的模仿学习，他认为这是最高效的一种学习方式，他不断向身边的人学习好的经验，也学习失败教训。这也是他自认为比较幸运的地方，求学生涯能在最好的学校里向最优秀的同学们学习，工作以后则能在做人工智能研究和工程实践最好的机构向优秀的同事和前辈学习， 自己进步很快。

另一方面，就像人工智能中的强化学习，他在试错中成长，也逐渐发现自己擅长和喜欢的事业。清华园里本博十年光阴，就成了他试错、充电的最佳时机。

大学期间，会有意识地积极参加班级活动，也担任过学习委员、班长和团支书的职务，这虽然会占用自己的学习时间，但也通过为班里同学服务补足了自己一些能力方面的欠缺。事实上，刚上大学时，由于年龄偏小，又从比较封闭的农村出来，内心会有不自信并且有社交障碍，积极担任这些职务，也使自己克服了这些短板。

大三，胡瀚跟着周杰老师实验室的一位师兄做 SRT （Student Research Training）项目。正是因为这一次项目经历，他顺利进入了周杰老师实验室并随其读博。读博第一年，他便中了实验室五年以来第一篇 CVPR，这篇文章给了当时的他很大的鼓励，也成为了他科研的一个起点。

我的人生路径不是一开始就规划好的，而是一步一步的往前走，慢慢地发现自己的热爱和擅长之路，导师和师兄也在一直帮助我，我觉得是一件蛮幸运的事。

胡瀚喜欢做一些新的尝试。因为自己从农村里面考出来，想知道基层公务员是什么状态，也想了解国家和基层公务员在农村建设方面更宏观的想法和实践。于是趁着博士阶段的社会实践，他去了往四川绵阳一个小县城的发改局。在此之前，他做了充分地调研和准备，读了三十多本关于中国新农村建设、土地财政税制相关的文科硕博士论文，并给当地政府工作人员分享了许多自己的理解。当地工作人员实践经验丰富，但很少接触相关理论和更广泛范围的实践经验，不少工作人员反馈听完分享后豁然开朗，而自己也很有成就感。

他在博士期间还前往了宾夕法尼亚大学交流。这次经历对他来说是一段新奇又很有帮助的体验，让他感受到了一些国内外科研方式的不同。

我在国外的导师对每位学生项目的技术细节指导地很细致，更 hands-on（亲力亲为）一些，而在国内的导师则会给我很多大方向上的指导和建议，并给与我充分的研究自由度。

这两种不同的风格也影响了他今后在研究工作中和学生的合作和培养模式，他选择去尝试兼顾自由度和亲力亲为。当时他所在的中心主攻机器人方向，20 多位老师里只有 3 位做纯粹的计算机视觉研究，但中心的老师都可以给自己建议和启发。他们在方法论上的引导，一定程度上培养了他的一种问题意识：重要的是提出问题（挖坑），以及在填坑过程中寻找新的重要问题。

博士毕业以后他去了百度研究院的深度学习实验室，该研究院由余凯（现地平线的创始人）挂帅，成为国内最早开启深度学习研究的先锋军之一。他第一个项目是在关于一种新的广告展示样式。以前的搜索引擎广告仅是一个文本链接，不够生动。为了吸引用户点击，团队想到给每个链接配一个优质关联图，这是一个体量很大的工作，他在其中负责将图片裁剪成展示所需比例这个技术模块。从计算机视觉研究来说，这不是一个核心任务，但从商业来看， 这一技术却最终带来了令他感到惊讶的巨大价值：促使点击率上升5个百分点，这也意味着百度年利润能提升35亿人民币的规模。 这次经历彻底刷新了他的认知，也丰富了他看问题的维度。

在百度刷新认知的事情经常上演，这里相比此前在学校里的研究工作更靠近商业和技术前沿，他也得以迅速提升了自己的工程能力、business sense（商业敏感）、问题研判能力、以及拓宽了思考维度。凭借出色能力他很快被安排去承担 tech leader 的角色，但不久以后的他重新为自己的人生做了一次选择：去微软亚洲研究院视觉计算组，做回一名一线的研究员。

现在回头来看这个选择无疑是正确的。当时他在百度的工作更多地偏向业务落地，主要考量技术能否为企业的商业目标服务；而微软亚研偏向做基础研究，而且他所去的这个团队刚做出来ResNet这一革命性的工作。对他而言这是一次机会，因为可以在最顶级的研究团队里学习和成长，同时这也是一个挑战，主要在于从业务应用重回基础研究的不确定感，不清楚自己能否做出一些真正具有长远影响的基础研究工作。幸运的是，微软亚洲研究院视觉计算组无愧被称为计算机视觉界的“黄埔军校”，不仅研究做的厉害，更重要的是这里很善于培养年轻的研究员，在这个组里的锻炼让他做研究的能力上了一个台阶。

在胡瀚看来，**MSRA 有两点很特别，一个是自由的学术氛围，二是很好的传承。**MSRA 科研之树长青，智慧代际传承。正是因为有着孙剑、何恺明、华刚、梅涛、王井东、代季峰、危夷晨、Steve Lin 等在科研品味和科研素质方面的培养和训练，例如如何产生一个好想法并将它付诸实践、对实验的严谨苛刻、写作逻辑与细节的把控要求等等，让每一位加入MSRA 的视觉研究者都受益匪浅。而这些资深的研究员则是受更早的如沈向洋、张宏江、郭百宁、汤晓鸥、马毅等前辈研究员的指导而取得的巨大成长。现如今，胡瀚也感受到了一种传承的使命感，希望将这两个特别的地方传承下去，以期为公司和整个社会培养更多的人才。

3 一个好的科研想法的台前与幕后

胡瀚所在的组里有几位年轻的研究员，还有 10 位左右博士生，这些博士生主要是微软和高校联合培养项目的博士生。

很多工作看起来是灵感迸发、幸运之至，但背后可能是整个团队多次郁塞地尝试。

Swin Transformer 的提出就有一段这样的经历。在两三年前，胡瀚和团队做过一个关于局部关系网络（Local Relation Networks）的研究，这一工作被 ICCV 2019 所接收。在做这个工作时，他们就尝试了第一个完全基于自注意力而无需卷积的骨干网络，但基于滑动窗口的自注意单元对GPU显存访问不太友好，使得计算速度较慢不太实用。正是因为有这样的经验，在设计Swin Transformer时，他们直接跳过了滑动窗口，选择了不重叠窗口。而移位的思想则是受到了胡瀚四年前的另一个未发表的工作的启发。

不重叠窗口以及移位的设计也是 Swin Transformer 能从众多视觉 Transformer 中脱颖而出的亮点所在。 利用移动窗口对分层 Transformer 的表征进行计算，并通过将自注意力计算限制在不重叠的局部串口，同时在不同的层中允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模，并使得计算复杂度和图像大小线性相关。下图为在 Swin Transformer 架构中利用移位窗口计算自注意力的示意图：

与开放问题对话一直是胡瀚在做研究上的一大追求。“以前的Transformer只能做图像分类，但它能不能解决更多的视觉问题？”“当Transformer能用于更多视觉问题的时候，到底未来应该选CNN还是Transformer？”为了回答这些问题，团队花了很大精力把Swin Transformer的性能调优，使得它在一些重要的评测集上面能够超出CNN三个点。这时他们发现，在尝试寻找第一个开放问题的答案时，很自然地、顺利地就找到了接下来需要解答的重要问题。

能回答一些重要问题的工作总是很难得，胡瀚觉得碰到默契的团队是非常幸运的。在研究中，团队每一个人都能发挥自己的特长。论文投稿前最后一个月，他们每个人都在想怎样把方法和结果做到极致，调用自己 120% 的精力。

在大家共同的努力下，Swin Transformer 实现了颇具竞争力的性能表现，在目标检测、实例分割和语义分割等几个重要的视觉任务中显著超越了此前最好的基于卷积神经网络的方法。10月13日，两年一度的计算机视觉顶会 ICCV 2021 优秀论文评选结果揭晓，Swin Transformer 收获了一个在计算机视觉领域非常有分量的认可——摘得马尔奖（最佳论文奖）。

在获得马尔奖后，胡瀚和团队瞄准了下一个重要的问题：视觉领域能如NLP领域一样开启大模型的时代吗？如何才能有效地稳定训练视觉大模型？ 不久前他们尝试回答这些问题，并给出了肯定的答案，发现视觉大模型也能给各种视觉问题带来广泛且显著的提升。

SwinT 证明 Transformer 在几种典型的视觉任务均能显著超越 CNN，胡瀚对 Transformer 的未来发展是非常的看好的，他认为不论是生态层面还是技术层面，Transformer都将很快全面取代CNN。

Transformer具有更强的建模能力、和卷积形成互补、对大模型和大数据有更好的扩展性、且能够更好地连接视觉和语言。

他相信视觉 Transformer 将开启计算机视觉建模的新时代。事实上，Transformer 自提出以来，在计算机视觉领域也一直存在不同的声音，有很多人认为 CNN 在改进训练方式后性能将可以和 Transformer 比肩，以及 CNN 在移动端性能上仍是更优的选择等等。对于学术观点差异，胡瀚一直以一种拥抱和欢迎的态度面对。「这是个好事情，学术界没有多样性就很难有创新。」他很乐意听到不同的思考，帮助发现自己观点的好坏，在辩论和碰撞中才能得到更正确的认知。

在胡瀚看来，做研究的目标不仅仅是去发明新的更好的工程实践，更重要的目标是探索一个领域更正确的认知，以及指引更正确的前进方向。他在自己的科研中践行着这样的目标，他认为这可能是他和团队能幸运取得这些研究成果最重要的原因之一。当然他也坦承这并不容易，需要投入大量时间和经历，对此，胡瀚提到，做研究很多时候是一种自我驱动，是追求自己内心深处的一种使命感，因此常常会将很多本应给家人的时间也投入到了研究中，想到这一点，他特别感谢家人的理解和支持。

“志之所趋，无远弗届，穷山距海，不能限也。”赤子之心至诚，希望赶路人乘风破浪至远！

- END -

推荐大家关注极市平台公众号，每天都会更新最新的计算机视觉论文解读、综述盘点、调参攻略、面试经验等干货~

在这里插入图片描述

极市平台

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
专访 Swin Transformer 作者胡瀚：面向计算机视觉中的「开放问题」原创

文 | 刘冰一、Echo编辑 | 极市平台本文原创首发于极市平台，转载请获得授权并标明出处。胡瀚，湖北潜江人，本博均毕业于清华大学自动化系，曾就职于百度研究院深度学习实验室，目前任职于微软亚洲研究院视觉计算组。近期他和团队的“ Swin Transformer：Hierarchical Vision Transformer Using Shifted Windows ” 摘得 ICCV 2021 马尔奖（最佳论文奖）。1 从看闲书谈起科研人员闲暇做什么？也许千人千面。胡瀚在微软亚洲研究院工作
复制链接

扫一扫