既然决定了卷论文,那就开卷吧!

卷友们好,我是rumor。

又到了开学季,一大波研究生即将入学。对人工智能方向的硕士同学来说,不管是导师要求、自己想做研究、还是为了找份好工作,越来越多的同学开始卷Paper了。而当实验室没有科研氛围时,自己从0到1完成一篇顶会级别的论文可是真的难,因为它需要很强的综合能力,同时还有很大的不确定性和失败概率。

d8ab0acf5c70d8dfdc81e62de7ef8f9f.jpeg

今天我就和MLNLP社区一起,分享一份简单的RoadMap,我们会综合企业面试官、硕博士学长的角度来提供建议,希望能对硕士、博士新生们从0到1完成自己的第一篇Paper有帮助。

MLNLP社区指路👇

注:机器学习、深度学习、线性代数、概率论、编程基础就不赘述了,个人建议是三四个月内尽快扎实基础,然后花一两个月打个比赛,把综合能力培养起来。

1 调研

选一个细分方向,一般建议方向定了之后就不要变,以后都做这个方向的研究,对于找工作来说面试官重视深度而不是广度。

找方向时可以关注以下特征:

  1. 越细越好(比如医疗领域的信息抽取),大方向都比较卷(比如NLP里的信息抽取)

  2. 实验迭代快:降低做实验的时间成本,注意该方向的数据集不能太大、同时也不能选取太大的基模型、太复杂的pipeline流程。不然实验都没做完就要毕业了。

选定完方向之后,就开始初步调研了,可以按照以下几步:

  1. 读一两篇最近的综述,最好找知名机构写的

  2. 顺着综述的reference,把比较经典、重要的文章都看一下(关于如何读论文,可以参考李沐老师在B站发的各个视频)

  3. 综述的实时性有限,可以使用MLNLP出品的「AI-Paper-Collector[1]工具,搜索最近顶会上该方向的文章

04bb32ecb5b283c0cf004e16eb34cd2f.jpeg

初步调研的目的是建立起自己对这个方向的知识体系,包括有什么主要问题、针对该问题有什么经典方法、有什么经典数据集、如何评估等。

了解了该领域之后,就开始重头戏了,如何找Idea呢?在讲Idea之前先稍微说两句,部分同学上来就想做特别大的创新,这种想法是比较理想的,一般一年里面全球范围有几篇特别创新的工作就很难得了。所以刚上来不用对自己要求过高,能帮助该方向进步一小步即可。

找Idea的不确定性是最大的,核心就是发现问题和解决问题,可以有以下途径

  1. 多读该方向的文章:量变产生质变,说实话读个几十篇之后就有一定的sense和判断力了,自然就会突然发现某篇文章有什么问题,自己就可以去优化一下

  2. 亲手跑顶会文章代码:照着论文顶会代码debug的过一遍,不仅能够很快的熟悉这个领域,也能在调试的过程中发现和总结问题。在找代码的时候可以参考MLNLP社区开源的顶会论文代码总结[2],能帮助大家快速找到开源代码的会议文章

  3. 关注业内热点:比如预训练、对比学习、Prompt、Diffusion都是这几年的热点,把这些热点方法迁移到自己的领域,很有可能在全样本或者小样本上有所提升

  4. 多和别人交流:比如CV和NLP的很多方法都是互相迁移的,不同领域的也是,有可能你方向上的一个问题,你同学就见过它方向相似的问题和解法

2 实验

有了Idea之后,就可以快速开始尝试是否work了,这一阶段求快,尽快把方法变成代码跑出结论,如果效果好,恭喜你可以继续了。如果效果不好,那就得调整超参数、看数据找哪里出了问题,再继续迭代。这里也是很考验算法er能力的地方,需要代码少出bug、快速迭代、分析数据等综合能力。如果试了一两个月还不work,那恭喜你可以换idea了。

当Idea行得通之后,就可以开始考虑Paper的内容,制定更详细的实验计划了。相比一股脑扎进细节里,提前想好会更加全面。不然最后赶ddl时边写边补很痛苦的。

主要考虑以下点(对应文章章节):

  1. Main Result:都跟哪些SOTA做比对?做几个数据集?如果Idea的创新性有限,那可以再想些附加方法,提升文章的密度

  2. Analysis:分析章节都放什么实验?(消融实验、超参数分析等),可以参考其他文章

3 写文章

写文章,就是把你发现了什么问题、用了什么解决方案,讲成一个完整的故事,体现整个研究的价值。

但对于很多中国同学来说,这也是最痛苦的部分,毕竟不是母语啊。

f7dfb8519933df476c896b07ddf2096d.jpeg

Anyway,对于没写过英文文章的同学,这里分享一个傻瓜又实用的步骤:

  1. 列出中文提纲,捋清思路,跟有经验的老师、学长对一下

  2. 确定主体之后,用中文写一遍,越细越好,像abstract、intro、analysis最好精确到句,其他章节列出段落提纲,有时间可以全用中文写一遍

  3. 中翻英,先用Google粗翻,再人工精翻,词汇可以多借鉴其他文章,但不要整句抄袭,同时切忌随意创造新的表述

关于写作的技巧、要注意的点还有很多,大家可以参考MLNLP的开源项目「Paper Writing Tips[3],里面不仅包含了各个Latex细节的写法,还有很多帮助写作的工具,以及投稿前必查的Checklist:

4462df2aada0ea2b9119235627221fe8.jpeg

总结

成功做完自己的第一篇工作后,就可以选择继续深入了,虽然前文有强调第一篇工作不必过于追求影响力,但之后就可以慢慢地对自己有要求了,如果总是反复用相同的idea或者方法,面试官问两句就都看出来了。

深入了解一个领域,并作出自己的贡献是件exciting的事情,希望大家秉持初心,做出自己满意的工作。

参考资料

[1]

AI-Paper-Collector: https://github.com/MLNLP-World/AI-Paper-Collector

[2]

Top AI Conferences Paper with Code: https://github.com/MLNLP-World/Top-AI-Conferences-Paper-with-Code

[3]

Paper Writing Tips: https://github.com/MLNLP-World/Paper-Writing-Tips

263465a24116c8ccb15fd9c3ee44889d.jpeg


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「哎,科研」37fd566b3383f7dfb9bff953446e282f.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值