自动驾驶大佬分享！关于我博士毕业的这件小事-CSDN博客

作者 | 叶小飞编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/661406115

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【全栈算法】技术交流群

本文只做学术分享，如有侵权，联系删文

最近看到小飞哥在知乎上发表了一篇关于自动驾驶方向读博的心得，小飞哥是自动驾驶之心的老朋友了，恭喜博士毕业！也预祝新的工作一帆风顺。这篇文章写的很深入，希望小飞哥的历程能够给正在读博或将要读博的同学带来更多希望和光明！正文正式开始~

在2023年九月里的平凡的一日，我通过了答辩，正式成为了一名刀客特。我朋友问我答辩成功后怎么庆祝，我说我要先把自己知乎头衔“UCLA在读博士”的“在读”俩字去掉。

今天我在这里写下这篇文章，一是想和大家，尤其是那些博一博二处于迷茫、或者正在苦苦挣扎的小伙伴分享一些自己的经验心得，二是为自己此时此刻一些微不足道的感悟做个记录。这篇文章或许和以前的文风相比更感性、条理性弱了点，但句句都会是肺腑之言。

我的博士生涯其实很短，有时我自己都觉得恍然如梦。我在2021年入学1月入学，2023年9月毕业，其中还夹杂着半年在Waymo的实习。

我的博士生涯又很漫长，我的过去两年可能顶别人的四年——我靠着自己近乎疯狂的热忱每天都保持着将近13个小时的工作时间。在这13个小时里，我的身体虽然被限制在家里的方寸之地，但是精神却是前所无比的自由、不羁。得益于这种热忱，我在过去的两年半里发表了不少顶会顶刊文章，引用从个位数涨到了4位数。

但这些身外之物绝不是我读博最大的收获，我最大的收获应是思考方式的一种重塑。

读博中最重要的事

读博里最重要的事情是什么？我想大部分新入学的PhD会回答说发表论文、做好项目、顺利毕业。

但我个人觉得这些事都是表，并非根。在我看来，读博中最重要的事是重塑你的思维方式。

博士学位的英文是Doctor of Philosophy, 而不是Doctor of Engineering：这就代表读博的最终目标，是学会以一种新的目光看待科研、甚至看待整个世界。

拿我自己举例子。如果有心的朋友读过我读博前的文章，可以发现他们真的非常Boring. 那时的我做科研就一个想法：找一个热门的CV问题搭积木刷榜单，先把分数提上去再编故事，结果就是我只能发一些垃圾会议。

这种做法其实在计算机视觉领域很常见，而它最大的问题在于，你从未认认真真、独立思考过问题本身。你做科研的原动力要么为了刷文章帮自己以后找工作，要么为了满足自己胜过别人的欲望。

我带着这种思维读博读了半年，直到我做到一个车路协同感知的文章遇到瓶颈才得以突破。当时我一直很苦恼一件事：路端传感器由于摆放位置较高，看什么都是一马平川，它如果把自己的感知信息传给经过的无人汽车，随便用个transformer一融合，那感知的问题不全都迎刃而解了？这么简单的课题我怎么才能发顶会？

这个苦恼困扰了我整整一周，直到有一天我开车经过一个十字路口，忽遇大风，整个交通杆被晃的摇摇欲坠，我就在此刻突然开窍了：车路协同远远不是我想象的那样完美—这样大的晃动一定会造成定位误差极大，导致路段设施传导的感知信息有着较大的偏差，直接影响融合效果。这样一来，这个课题不是有更多的研究点了嘛？

从这一刻起，我的思维开始改变。我不再想当然地去攻克一个已知的科研问题，而是先扪心自问：我是否足够深入地思考这个领域有哪些真正的痛点问题？已有的问题本身是否就有问题？

关于第一个扪心自问，即我是否足够深入地思考这个领域有哪些真正的痛点问题，我可以拿自动驾驶里的现在很流行的纯相机BEV感知检测来举个例子。大部分人的想法还是停留在如何魔改网络结构来刷榜单，这种做法不是发不了顶会，而是只有少部分拥有雄厚资源的研究人员才有机会。但其实做科研完全不必如此硬卷，你只要稍微深入思考一下，就知道这个领域还有很多实际问题没有被人探索。举个例子，相机摆放的位置是否会直接影响你的表现结果？多个相机直接有一个挂掉该如何处理？多个相机出现严重异步怎么办？我可以不可以用谷歌地图的prior knowledge帮助表现？这些问题我其实在两年前脑子里就有了，碍于时间有限未来得及探索，但在今年的CVPR和ICCV中，我确实看到了有论文去探索这些问题并且成功中奖，这也证实了这种思路的有效性。

关于第二个扪心自问，已有的问题本身是否就有问题，我个人认为是推动整个科研领域每一次质的飞跃的原动力。飞飞教授在做ImageNet的时候，她认为大家一直集中在如何设计好的算法在狭小的数据集上刷到高分的思路是意义不大的，所以她换了一种思路：直接从数据本身下功夫。当时她收到了很多质疑，但最后的结果大家都知道：ImageNet促成了AI新纪元。再比如大火的Transformer, 正当大家在关心如何把LSTM设计的更好这个问题时，谷歌的研究员直接摒弃LSTM，打破原有框架，提出使用attention机制。我最崇拜的Raquel教授也做过类似的事情，她在V2VNet这篇ECCV2020文章中指出单车智能实现L4可能是个伪命题，多车协同可能才是最终方案。她这篇文章也直接促使了自动驾驶协同感知这个领域的兴起，可以说我的整个PhD都是靠她这篇文章养活的。

那么如何才能锻造这种科研思维？我认为有4点：

学会批判。无论是你眼中的大佬同行，或者你的导师，他们的观点都有可能是错的。你读到的论文里面那些精彩的故事可能都是凑巧编出来的，换一个数据集或者环境可能就完全不work了。看待一切的research work，哪怕是CVPR best paper这样的文章都要带着批判的眼光去看：他们还有哪些问题没有考虑到？他们的设计是否还有瑕疵？他们那精彩的故事是否在某个特定条件下就完全失效了？
永远不要限制你的想象力，想的越大胆越有奇效。在2021年初，自动驾驶BEV鸟瞰图感知还完全没有一点影子的时候，我文科专业的女友曾经就问我，为什么一定要用LiDAR，直接让AI把相机信息变成俯视图的一个判断不就行了吗？我当时很嗤之以鼻，说这个太难了，相机只有2D，直接用网络推测俯视图结果肯定很烂。结果没过多久特斯拉就公布了它们的方案，和我女友所讲的思路是一致的。
多读好论文，而且读的要广。正如古人所言，思而不学则怠。只是空想永远锻炼不了你的科研思维，一定要多读论文再结合自己的思考才有用，而且很多时候要跨领域去读，譬如现在大火的vision transformer很多都是从NLP借鉴来的。
多和其他resaercher交流。这不仅仅限于自己实验室，其实天南海北，从北极到赤道的人你都可以去交流。有时候你会惊奇的发现，一封邮件会带来很多新的朋友。

热爱你所做的

读博的时候会有各种各样的压力和不确定性，包括导师的push, 同行的压力，抽风一样的审稿意见。我在写自己开窍、也是读博期间最满意的那篇V2X-ViT时曾经遇到过各种阻力--导师对初稿的不满、灵感枯竭，甚至我第一次投CVPR时还遭到了同行恶意审稿，他对协同感知很了解，却单以我们没有video demo作为理由，用中式英文给我这篇呕心沥血之作strong reject。当时的我真的很难熬，是对自己研究领域的热爱让我支撑了下来。同时，如果这个恶意审稿的asshole现在看到了这篇文章，我想对你说，像你这样的跳梁小丑无论用怎样的卑劣的手段，都无法阻挡一个真正热爱科研的人前进的步伐。

热爱你所做的会带来很多附加品质，包括坚韧、不知疲倦、乐观，甚至可以帮你克服焦虑。我日常生活里是一个很懒的人，喜欢严重拖延，而且我打小上课走神特别严重，精力很难集中。但是当我开始做CV领域之后，这些问题就忽然消失了：我愿意去做那些最杂碎的数据处理，总是迫不及待地去跑完实验，写代码上网课时精力也变得高度集中 -- 这就是热爱所带来的力量。

我读博期间因为超长的工作时间和惊人的输出量曾被人戏称“卷王”，paper machine之类的，这些称号多少带着一些戏谑，但是我打心底一点也不care他们的看法。因为我每天都在做着自己热爱的事，这本身已是足够了。

能定义你上限的，只有你自己

将近三年前，我从北美奔驰研究院辞去高薪工作，前往UCLA读博时曾有很多反对的声音。

有的人说读完博都得过去了六七年，你现在的同事可能都成manager赚了大笔钞票了，你才又从头干起。也有的人说，因为你选的导师并非是EECS（交通专业出身的），他都没发过一篇CVPR，你凭什么能发？甚至连读博初期我写知乎分享时都有前辈说我不务正业。

事实证明他们是错的：我的导师虽然不是CV领域的专家，却促进了我重塑思维模式，而且给了我较短时间毕业的机会；我在知乎的分享看似与学术无关，却让我结识了很多志同道合的朋友，而在知乎的宣传也让我的作品更广为人知，更好打造了一套生态系统。这些人的反对其实是出于好意的，只是他们在用一个他们以为的上限在定义别人，而真正能定义那个上限的人，只有你自己。

不仅是刚读博时，读博中期也有类似的事情发生。我在做OPV2V这篇协同感知奠基文章时，是八月初开始做的，而ICRA的DDL是九月15号，也就是我只有一个半月的时间。我需要在这一个半月里完成以下几件事：收集大量的仿真数据，从零学习3D LiDAR检测，制作一个digital town, 从无到有构建史上第一个开源的协同检测代码库，提出一个可行的融合算法并且跑大量的实验，以及高质量的写完这篇论文。几乎所有人，甚至包括我的导师，都认为这是不可能完成的任务，就算完成了，质量也不会太好。

但是我没有就此放弃，我找到了靠谱的合作者分配一些次要任务，找到了外校的朋友借到GPU资源，自己则拼了命地工作去攻克最核心的问题，最后一同完成了这篇文章。截止至今日，这篇文章已经有近130次引用，500+star, 全球一共有超过四十个不同的学术机构/公司/政府使用过这套数据集和相关的代码库，甚至今年的ICCV有八篇中了的文章都在基于这个数据集做实验。

所以如果你在读博的过程中，有些想法遇到众人的阻力，自己内心深处却笃定这个想法是对的，那就放手去做，不要让别人来定义你未来的路怎么走。因为如果你的一举一动都是按照众人满意的方向去做，那你最后也会是众人的一员。

请保持锻炼

读博的强度很高，作为一个像我这样的普通人，想长时间的高效工作就必须有锻炼的习惯。我基本保持着一周至少6个小时的健身/有氧运动时间，这也为我带来了非常好的精力。我每天只需要六个小时的睡眠，不需要午睡，从早到晚基本不会感觉到疲惫，效率基本也是保持在一个较高的水准，经常被人戏称为“永动机”。

写在最后

PhD结束地像一场梦，有时候回想起来觉得很不真实，那段时光仿佛从未发生过，但它对我产生的巨大影响却又是实实在在的存在。关于未来，我会加入Waymo Research继续从事自动驾驶的研究，因为我内心对自动驾驶的未来非常笃定：它一定会实现，而且一定会让这个世界变得更好，我愿意将自己的青春献给这个行业。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）