方浩树：本科Gap两年，确定了未来的方向，还发表了四篇顶会一作

最新推荐文章于 2024-12-29 10:06:31 发布

Amusi（CVer）

最新推荐文章于 2024-12-29 10:06:31 发布

阅读量2.2k

点赞数 3

文章标签：神经网络微软编程语言计算机视觉机器学习

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：AI科技评论

与国外相比，国内大学的“Gap”文化并不流行。有人认为这是浪费时间，也有人逆流直上，利用一两年的空档找到未来的方向。显然，方浩树是后者。

作者 | 陈彩娴

在获得2020年微软学者奖学金之前，方浩树便已是国内有名的AI科研学子之一。

他曾在本科期间发表4篇顶会一作，入读上海交通大学吴文俊人工智能博士班之后，又相继获得2019年百度奖学金、2019年度“中科视拓Seeta学术新锐奖”，入选由上海 AI 青年科学家联盟·梧桐汇发起的「A 班计划」。

作为一名二年级在读博士生，方浩树的学术成就令人瞩目。然而，尽管外界的关注与赞誉不断，他对自己的定位与认知却十分清晰，将目前的学术成就首先归因于“历史的进程”：“深度学习发展到现在，确实比较容易出成果。”

方浩树的童年在潮汕度过，小学三年级随父母移居深圳，求学均是名校：初中就读于深圳市福田区石厦学校，高中就读于深圳中学，本科就读于上海交通大学电子信息与电气工程学院，期间曾赴UCLA跟随朱松纯实习，2019年直博上海交通大学计算机系，成为吴文俊人工智能博士班的首批学员之一，师从卢策吾。

仔细回顾，方浩树的“开挂”人生，似乎是从他决定休学后开始的。

学霸不走寻常路

谈起当年的高考成绩，方浩树记忆犹新：“这个我记得很清楚哈哈。当时我考了680分，而那一年清华与北大在广东省的招生分数线都是681分。”

2010年，方浩树进入深圳中学标准班就读。当时，深圳中学的前任著名校长王铮已调去北京大学附属中学，但他任职期间的改革成果仍继续影响着深中的文化氛围：推崇自由与民主的治校精神，鼓励学生的多元化发展。

比如，方浩树记得，他在深圳中学读高中时，如果学生觉得学校有某个地方做得不够好，可以在学校校园里的大字报上提出来，让学校去改善。在这个过程中，方浩树逐渐培养了一种“think different”的思维方式，养成批判看待问题、不断尝试寻找更好解决方法的习惯。

成长于自由开放的环境，个性张扬并非必然。在方浩树的身上，深圳与深圳中学的氛围对他个人的影响更多是体现在追求创新的自我驱动力，热爱思考与自主探索便是其中的体现。方浩树不喜欢随波逐流，也不喜欢按部就班，而是更倾向于先寻找方向。只有确定了自己的目标，他才会付出自己所有的时间与精力去努力。

因此，方浩树并非一直是学霸。在刚上高中与刚上大学时，他的成绩都排在全班/全系的中下游，因为在这两个时间段里，方浩树花了更多时间去思考：“我是不是要把很多时间花在上课上？”相比一直埋头苦读，方浩树认为，这个问题更值得他去思考。

只有等他想明白了，他才有可能专心起来。

在上大学后，方浩树也经过了大约两年的探索与思考。在探索期间，他参加了许多社团活动，对自己的专业方向也感到迷茫：“我一直不太清楚自己想要做什么。这么多方向似乎都不是我真正喜欢的。”

甚至大二选专业时，方浩树一开始也没想选择计算机。他从小就有一个梦想，就是当一名科学家，而计算机似乎离这个目标不是很近。后来，方浩树了解到，其实学计算机，也可以选择研究方法论，以后也是有成为科学家的潜力，所以才选择了计算机。

图注：探索期间，2014年夏天，方浩树去乌克兰参加了全球志愿者活动

在大学的前两年，由于没把心思花在上课上，方浩树的成绩一直比较差。后来，方浩树先给自己定了一个目标：出国。如果要出国留学，那必然离不开好的绩点，于是他就思考：“自己是不是应该好好学习？先把成绩提上来，然后再做下一步的打算。”

确定了出国的目标后，方浩树开始努力学习，把成绩提高到了全系前10名。与此同时，他也开始寻找加入实验室的机会。

当时，方浩树前后一共加入了三个实验室，一个是光量子方向，一个是网络方向，一个是高性能计算方向。但似乎没有找到入门的方法，“感觉做不动”。

大三时期，方浩树偶然了解到上海交通大学的本科生研究计划（Participation in Research Program，简称PRP）。自2001年起，上海交大开始实施PRP计划，希望帮助对科研感兴趣的本科生参与课外科研项目的研究工作。

没有多想，方浩树选择参加PRP计划，并加入了第四个实验室，跟随自动化系的阎威武教授学习机器学习的相关知识。在这个计划中，方浩树根据阎威武推荐的 ML 入门资料去摸索、自学，推导、钻研逻辑回归、支持向量机、MLP等新知识，“越学越觉得有意思。”

但深入学习一段时间后，方浩树又开始迷茫。同时，2015年那会，国内有关神经网络、深度学习的研究还没有火起来，网络上的相关知识介绍十分有限。

“当时阎老师主要研究方向不是计算机视觉，用到神经网络的地方比较少，没有很合适的Topic给我做，我也不知道这个方向能做什么。”

尽管对神经网络与计算机视觉感兴趣，但方浩树没有从事相关科研实践的机会。

在大三的寒假，也就是2016年初，方浩树在BBS上看到卢策吾的实习生招聘广告。当时，卢策吾还在斯坦福大学李飞飞实验室担任博士后，第二年才回上海交大，但已经开始招实习生。方浩树发现自己的兴趣方向与卢策吾的研究很契合，于是便投递了简历。

“Human Understanding（人类理解）从最底层像素级别到语义级别，逐层深入的理解使我更感兴趣。”

在面试中，卢策吾主要了解了方浩树在PRP计划里所学习与收获到的知识。其中，方浩树提到自己有一定的机器学习与神经网络的知识基础，于是便通过了面试。

如今回头看，虽然当年高考与清北失之交臂，但方浩树觉得，自己在上海交大读本科更好：“因为碰到卢策吾老师这一点很重要。如果去了清北就遇不到卢策吾老师了，这会很遗憾。”

预感于加入卢策吾团队做科研的机会难得，因此，2016年大三结束后，方浩树毅然决定办理休学，跟着卢策吾做研究。

“一两年对漫长的人生来说可能不算什么。”

休学两年：出了四篇顶会一作

休学的两年，也是方浩树的重要人生转折点。在这两年中，方浩树发表了4篇顶会一作，并结缘了三位对他做科研影响较大的导师：卢策吾、戴宇荣与朱松纯。

“我当时是先休学一年。其实你想，如果在本科期间入伍，也要两年；读一个master（硕士），也要两年，所以我觉得我当时休学一年的影响也不是很大，而且我会觉得在卢策吾老师这边可以学到很多东西。”

确定加入卢策吾老师的团队实习后，方浩树在2016年3月开始接触课题，准备前期工作，研究代码，看论文等。当时，方浩树也申请了商汤科技的实习。因此，2016年6月办完休学手续后，方浩树一边在商汤科技实习，一边跟着卢策吾老师做实验。

本科期间，方浩树主要专注于人类行为理解的相关研究。

ICCV 2017

在卢策吾与腾讯优图实验室总监戴宇荣的指导下，方浩树与团队远程合作，研究多人场景姿态估计。多人场景姿态估计的目标是在一个多人场景里识别每一个人，然后把每一个人的骨架同时抽取出来。与其余顶会论文的进行相比，第一篇顶会论文的过程相对坎坷：

一开始，实验分数很难上去，方浩树与团队成员花了很长时间去摸索如何提分。好不容易，在花了很多时间调整、跑实验后，分数终于超过了目标分数的一点点。方浩树很开心，以为这就结束了。没想到卢策吾看到实验结果后，说：“不错，但还可以更高。还可以高10个点。”

方浩树与队友听到，觉得有些夸张，可能性不大。但在后面的实验里，他们一条条地调整，最终结果真的比以前的文章提高了将近10个点。然后，他们开始写paper、投顶会。

一开始，他们将文章投到CVPR，结果反馈是两个reviewer reject，一个reviewer accept。后来经过Rebuttal，变成2、3、4，一个分数变成了borderline，但最后还是被拒了。这让方浩树觉得很失落。

“不过卢老师当时看的比较有远见。他说我们要先把代码都开源，让大家用起来。”当时，开源代码AlphaPose人体姿态库在GitHub获得了超过3k star（目前已获得4.7k），排名达到前万分之一。

之后便迎来了ICCV。由于第一次投稿被拒，方浩树与队友便思考，会不会是论文写作的英语表达不够好。为此，方浩树还在学校的路上“抓”了一个母语为英语的外国人，把他请到图书馆一起改论文，从头到尾过一遍。

最后，这篇名为《RMPE: Regional Multi-person Pose Estimation》的论文被 ICCV 2017 接收。论文提出多人姿态估计的两步法RMPE框架，着重解决在实际应用中人体检测不准确的情况下的姿态估计问题，在精度上比 ECCV 2016的图优化法高10mAP，在速度上快了600倍。

论文链接：https://arxiv.org/pdf/1612.00137.pdf

AAAI 2018

完成第一篇顶会一作后，方浩树在卢策吾的指导下就人类行为理解方向进行新的探索。当时，方浩树觉得姿态和部位分割可以相互促进，但实际上，pose和parsing在本质上便不同：”pose需要忽略很多部位信息和像素级信息，只关注关键点；但是parsing正好相反，能够捕捉到每个像素的信息。”

迫不得已，研究停滞半年之久，直到2017年暑假，方浩树加入UCLA的VCLA研究中心进行研究实习，师从朱松纯。

UCLA的暑研机会，也是得益于第一篇顶会论文：当时，第一篇论文开源后，一位在UCLA就读的博士后用到了论文中的代码，觉得很不错，于是便将方浩树推荐到朱松纯门下参加暑期实习。

在UCLA实习期间，方浩树学到图模型和图像语法的知识，并将语法模型和神经网络结合起来。论文把人体三维模型看作语法，然后用它来帮助神经网络预测三维骨架。工作用到三个语法：人的姿态对称语法，运动学的语法，以及人的树状结构语法。最终，文章《Learning pose grammar to encode human body configuration for 3d pose estimation》被 AAAI 2018 接收为Oral Paper。

论文链接：https://arxiv.org/pdf/1710.06513.pdf

CVPR 2018

在接触新方向的过程中，方浩树偶然读到陈鑫磊的某篇论文，文中提到通过聚类来做分割。这启发了方浩树：为何不通过pose来做聚类，通过聚类来帮助parsing呢？这个思路在试验中取得了极大进展。

经过三个多月的试验，论文初稿已成型。戴宇荣在改完论文摘要后，又提出：利用pose信息从数据库里迁移已有的标注数据，来达到知识迁移的目的。这又给了方浩树创新算法方式的新灵感。

经过新的试验，方浩树与成员完成了论文《Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer》。论文提出了一种新的半监督学习范式，通过人体的形态学相似性，利用大量易获得的标签从少量的样本中迁移标注数据。这篇工作被CVPR 2018接收为“Spotlight Paper”。

论文链接：https://arxiv.org/pdf/1805.04310.pdf

ECCV 2018

在人类行为识别的研究课题上，方浩树与团队成员继续深攻，提出在人与物体交互（HOI）识别中，人类通常是通过使用身体的某个部位与物体进行交互。

他们在论文《Pairwise Body-Part Attention for Recognizing Human-Object Interactions》中提出“成对身体部位注意力机制”，在模型中引入基于注意力的特征选择方法与可以捕获身体部位之间成对相关性的特征表示方案。

这篇文章将人与物体交互时，人体各部位之间的协同关系给挖掘出来，把人的肢体跟肢体间的高阶关系进行一个显式建模。与HICO数据集上的结果相比，该论文实现了 10% 的性能改进（36.1 mAP→39.9 mAP）。文章被ECCV 2018接收。

论文地址：https://openaccess.thecvf.com/content_ECCV_2018/papers/Haoshu_Fang_Pairwise_Body-Part_Attention_ECCV_2018_paper.pdf

连续发表四篇顶会一作后，2018年，方浩树不仅拿到包括UCLA朱松纯教授在内的多个北美知名实验室的博士生offer，还被新华社列为国内第四代人工智能研究代表进行了专访。

但方浩树经过综合考虑后，还是决定在国内直博，继续留在卢策吾的团队。

放弃留美

在要不要去美国留学这件事上，方浩树也有自己的思考。在美国实习期间，异国始终有种疏离感，“呆久了也没有归属感”，同时，他对中国，上海，交大的实验室的未来十分乐观。多重因素，最终让他决定留在国内读博。

不过，虽然没有来到朱松纯老师门下继续深造，他的精神却也一直影响着方浩树。

令方浩树印象深刻的是，在UCLA进行暑期实习期间，每次参加组会，朱松纯都会与学生强调，现在是AI大一统的发展阶段，不要局限在计算机视觉的小领域，而是要把学到的知识应用到大的AI领域。

除了想法远大而全面，方浩树也时常想起，有一次，朱松纯请几位暑期实习生吃饭，席间分享了他在中科大读本科时如何想到做AI、如何一步步到美国从事AI研究的经历，并提出自己的疑惑：“为什么这么多优秀的中国学生来到国外学习，后来学术界慢慢就听不见他们的声音了？”朱松纯觉得这很可惜。他希望实习生能坚持对学术的追求与探索。

虽然暑期实习仅持续了三个月，但这席谈话一直激励方浩树，要像朱松纯一样不断地攀登学术的高峰，用创新去突破学术的上限。

而卢策吾，虽然资历较轻，但也有自己的学术蓝图。每次做研究前，卢策吾都会先与学生分享一个大的蓝图，指出哪个板块需要做哪些事情。

“卢策吾老师平时经常会和我们聊一些远大的研究目标，不局限于技术问题，还有人生感悟、未来蓝图、学科前景等。我感觉他就像一个智者。无论问他什么问题，他都会有自己的思考，会给你娓娓道来。”方浩树说道。

图注：卢策吾（左）与方浩树（右）

2019年，方浩树选择直博到吴文俊人工智能博士班，并开始在卢策吾的MVIG实验室进行机器人研究。

从人类行为理解到机器人，跨度非常大。但实际上，方浩树最早便是对机器人感兴趣，只是到了攻读博士阶段，才有了成熟的研究时机。此外，方浩树也受到了导师卢策吾的影响：

“卢老师经常对我说，我们做研究不应该是为了个人的利益得失，而是应该从整个社会出发，从全人类的利益出发去从事科研。”

读博后，除了人类行为理解，方浩树还从事机器人物体研究。他与团队成员提出 GraspNet-1Billion 标准数据集。该数据集规模大，标注丰富，并带有统一评测机器人抓取姿态的框架，着重于复杂场景的抓取姿态检测，既可以提供大量真实的抓取数据，又能提供真实的视觉感知。

方浩树认为，与主要做信息抽取的图像处理或语音识别相比，机器人是主动与世界交互，此时 AI 有“主观能动性”，能够主动服务人类，同时，交互的过程也能为理解世界带来更多的信息量。因此，方浩树觉得，“通过机器人，我们更能接触到AI的本质。”

接下来，方浩树将专注于研究机器人物体操作，让机器人能够通过操作，在一个特定的环境里完成某项任务。他希望机器人可以像人一样自主学习。比如，看一段人做饭的视频，或者观察人类做饭，就能将类似的操作复现，自己学会做饭。

这个过程包含感知与控制，前者涉及到姿态估计、语义分割和三维视觉等知识，后者则包含基础的抓取知识等。因此，方浩树计划逐渐将人类行为理解与机器人物体抓取的知识结合起来。但如何表征知识，将知识引擎和推理系统应用到机器人领域，还是一个困难且充满挑战的基础问题。

我们无法知道方浩树选择留美读博后的学术生涯是什么模样。但在卢策吾的团队中，方浩树仍继续突破自我，并揽获多项大奖。

比如，方浩树入选 AI 青年科学家联盟·梧桐汇发起的「A 班计划」，获得2019 年度CCF-CV“中科视拓Seeta学术新锐奖”（获奖学生共3名，其余2名分别是来自清华大学的饶永铭与易冉），2019年百度奖学金（每年仅评选10人，吴翼、吴佳俊等人也曾获得该奖项）。

图注：2019年，方浩树获得百度奖学金

2020年，方浩树又获得了微软学者奖学金，入选字节奖学计划。

从本科到博士，方浩树的科研方向都十分清晰。除了归功于“历史的进程”，方浩树认为，自己的运气也很好，遇到的导师对他的帮助都很大，成长环境也是自由与包容。

虽然本科期间因为专注于自我探索，没有专心学习，没有获得过学业奖学金，但方浩树按照自己的方式获得了现在的成就：在找到自己所感兴趣的方向后，他几乎每天都在科研上投入大约10个小时，科研也成了生活的重心。

但方浩树对自己目前的生活很知足：“我一般不怎么出去玩，我本身也不喜欢打游戏之类。而且对我来说，搞科研是一件很快乐的事情。”

结语

目前，方浩树是一名二年级博士在读生，已发表顶会论文10篇。

在方浩树的影响下，妹妹方晓霖也走上了AI科研之路。目前，方晓霖在MIT的CSAIL实验室攻读博士学位，师从Leslie Kaelbling与Tomas Lozano-Perez教授，主要研究内容为机器人与计算机视觉。

图注：妹妹方晓霖

谈到父母对子女的培养方式，方浩树认为，可以概括为“有期望，但没有约束”。

除了做科研，方浩树最喜欢的就是做菜。在他看来，做菜与科研都是创造的过程，而方浩树很喜欢创造带来的快乐：

“我不太喜欢做重复的事情。我希望不断尝试新的方法与技巧，做出新的成果来。”

目标检测综述下载

后台回复：目标检测二十年，即可下载39页的目标检测最全综述，共计411篇参考文献。

下载2

后台回复：CVPR2020，即可下载代码开源的论文合集

后台回复：ECCV2020，即可下载代码开源的论文合集

后台回复：YOLO，即可下载YOLOv4论文和代码

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2400+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群