从入门深度学习到能发顶会，你用了多久?

最新推荐文章于 2024-08-05 14:29:18 发布

人工智能与算法学习

最新推荐文章于 2024-08-05 14:29:18 发布

阅读量987

点赞数 1

文章标签：算法网络机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyOTkyOTEzOQ==&mid=2247494426&idx=1&sn=ed1ea73798325a073d85516edcc15035&chksm=e8b992c6dfce1bd00ea3d9d0c5f2322d67967f49a34cb7d69463132c9e2d156f252ade48169d&scene=126&&sessionid=0

版权

几位专业人士分享了他们的深度学习研究经历，从入门到发表顶会论文的时间线，强调了选题创新、实验实践、写作技巧和学术兴趣的重要性。他们提到，找到可成立的学术问题，避免过度追求微小改进，以及理解工作优点并清晰表达，是成功的关键。同时，模仿优秀工作、跨领域结合、数据集创建和新任务探索也是有效策略。

摘要由CSDN通过智能技术生成

来源：知乎

本文仅作学术分享，著作权归属原作者。

hzwer(旷视科技）回答：

我17年7月左右开始了解深度学习，19 年 3 月投第一篇CV的顶会 paper (ICCV-LearningToPaint)，很幸运被直接录用，这么算大概是 20 个月。

这个paper大概做了一整年，主要用到了一些强化学习和 GAN 相关的技术，还有一点点可微渲染，每个小组件都花了好些时间做实验。

结合这两年的反思和研究经验，我感觉对于新手来说，重要的是选题，找一个 能成立的学术问题，不用想着把一个现有算法怎么增量式地提升，很容易把自己的学术兴趣给卷没了。而且如果不是很显著、巧妙的提升，对写作功底和包装水平的要求很高。现在的审稿人也厌倦了这种刷点的工作，学术圈还是更喜欢挖坑式的工作。实在不行就挑一个近期 oral 以上的工作去 follow。当然还有一个问题是写作，写作是需要大量锻炼和总结的，多找前辈看看能发现自己的不足。

做 LearningToPaint 的时候，我们是纯粹好奇驱动的，想研究一下怎么让 AI 来“用画笔画画”，根本没想着它有什么用，但最近数了数 follow 我们工作的顶会论文也有至少 10 篇了。

后来开始做光流插帧，RIFE 刷出 SOTA 后被拒好几次，光补各种对比实验文献调研就搞了几个月，我自己挺喜欢这个工作，但审稿回复的批评非常多，关键原因感觉是我自己也没太理解自己工作优点在哪，前期把精力都放在提高性能上，写的时候有点像技术报告，最近大幅修改以后已经自己满意了，希望 2022 能发表吧。

ECCV 又做了一些完全不同，脑洞很大的新 task，感觉研究慢慢上道了。

楼上的大佬说的非常好，“先假设你就算真的做出来了又有什么意义”，想不走弯路建议多想想这个问题，为什么大家要看这篇论文？为什么它能吸引社区的兴趣？甚至极端点想，如果论文写的很差，依然会有人欣赏这个方法吗？

“文章千古事，得失寸心知“，祝大家为人类智慧添砖加瓦。

江俊广（清华大学软件工程）回答：

其实在发完几篇顶会之后，依然觉得自己没有真正入门。

一方面，深度学习现在的分支非常多，已经很难对各个方向都进行深入的了解，不同方向之间已经隔行如隔山。
另外一方面，即使是自己的研究方向，在读别人的工作或者是自己做实验的过程中，也经常发现自己之前的理解是错误或者片面的。

而从开始学习深度学习，到发表一篇还算ok的文章，我大概花了两年的时间。

在大四上的时候，我遇到和题主类似的困惑。我当时读了许多的论文，在读论文的过程中也涌现出许多的fancy的idea，但是将它们实现出来后却没办法提升网络性能。因此我一度自闭，决心不再做research，和导师沟通之后选择了一个更加engineering的毕设题目。

这个engineering的毕设题目就是实现一个算法库，将我研究方向相关的几个经典算法，按照pytorch API的风格重新进行复现。而做毕设的那半年，我重新找回了coding的快乐。所有算法一定是可复现的，如果我复现不出来，那么一定是我实现存在问题，而不是idea本身存在问题。换而言之，这个问题的解一定是存在的，我只要像写OJ题一样，把bug调出来就行。

在这个过程中，我也不断地学习了别人是怎么把论文中的idea，变成具体的代码实现，怎样把超参数调出来。研一上的时候，在解决实验室项目中的题目时，我发现自己突然能够实现出一个可以work的idea了，然后还中了CVPR。

因此，我觉得不妨从模仿中学习。

如果没有训练数据，深度学习模型啥也做不了，其实你也是一样的。

复现那些高质量的顶会论文时（使用高质量的数据进行训练），你会发现许多读论文时注意不到的实现细节（模型学到合适的参数），这些都会帮助你在解决自己的问题时提出有效的解决思路（模型在测试集上实现泛化）。

而且即使最终没能发顶会，你在这个过程中积攒的（调参）经验，对你解决实际问题也是百利无一害。

匿名用户回答：

非cs专业，没指导，16年初入门，18年中开做，19年末投，20年中某CV顶会。

如果你是15-16年入，17-19可以发很多文章了，我发文章的目的没那么强，所以到18年才决定做文章发（新数据集和新任务）。

现在要快速发文章可以考虑dl+x，应该也能中领域顶会顶刊，可能6-12个月吧。20-21这一波transformer，如果上车也可以快速发一波（我20中开始做visiontransformer，中了21的某CV顶会，也算新任务），如果做常规任务（低层视觉），估计3个月吧。结合起来，把transformer带到dl+x去子领域发，这个密码暂时还有效（2022.2），比如医学类的。

我入门的时候拿一些已有数据集跑了个模型，想着可发可不发，所以仅停留在练习上。但是后几年就有人以此数据和任务发了某HCI顶会，模型只是个FCN（那时候还不兴UNet）。

总结起来，受时机、环境及一些动力决定，可快可慢。

我来说些我自己的经验，不一定有迁移性。

我个人感觉，如果实验室没条件（比如我是独立研究），那么小领域、新任务、新数据，都是比较好的一种方向。我在的领域小到可以猜审稿人，好处就是不太卷，大家也比较友善。这样即使做得很慢，也不会容易撞思路，不需要团队和设备，新任务和新数据也都有这样的特征。

如果你的实验室有常做的任务，肯定是按实验室的思路来最好，这样方方面面都有帮助，除非你真的很厉害，否则千万别另辟蹊径。不过目前常见任务通常都是比较卷的，没设备，没想法，那真的很难竞争。有一种比较好起步的方法可能是做常规任务的数据集，或者做基准比较，这种就比较体力活，但是其实对于社区也是很有意义的（强推timm），其中做数据集是最容易顶会的，只要按部就班做出那么多数据，那基本就可以顶会（可以参考近年的侯选）。不过做数据集的坏处是比较费钱，如果不想费钱，就需要一些些巧思。就我个人看，这里还有很大的空间，虽然我不做常规任务，但是我还是能看到挺多低垂果子的，比如合成数据就还有挺多空间。

做的时候，文章可以看得杂一点，因为我个人图形学背景比较多，所以我做合成数据就很有优势。而transformer这波，如果多看看NLP也有挺多机会把握上的。又比如，近期的很多NERF和隐式表示的文章也是图形学的再次伟大。即使不是跨大领域的dl+x，常规任务里做做结合（比如多模）也还是很有机会的。

另外，对于大部分人，不建议一步顶会，最好还是先以当非主要作者，或发一般的会议、期刊作为起步。即使是实验室已有的体系，新起一个子体系，也是个新体系，跑通一轮可以累积很多经验，如果精力足够（一般都够），最好还是一边跟着做，一边自己做。