CCL 2021 学生研讨会参会记录 (关键slides以及精炼心得)

最新推荐文章于 2023-12-19 18:01:12 发布

Reza.

最新推荐文章于 2023-12-19 18:01:12 发布

阅读量997

点赞数

分类专栏：个人工作文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_43301333/article/details/121705318

版权

个人工作专栏收录该内容

5 篇文章

订阅专栏

今年CCL改为线上开展，所有学生研讨、特邀报告全部对外开放。在此，有幸能够听到赵鑫老师，丁宁、王思远等众多优秀学长学姐的科研心得分享(~~原价2870元/人的研讨会，还是蛮值的~~)。

1. 如何写一篇"合格"的国际学术论文？(赵鑫教授)

还是一句话，introduction非常非常重要！
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
notation没有固定的规则，硬要说的话，满足：

好看
好记
自成体系

即可

这里赵鑫老师推荐了一个template，有相应的公式可以简单仿照上面的写法：
DeepLearningBook
也可以自己找本机器学习的书籍，比方说西瓜书。
在这里插入图片描述
要记得，活用上下标，notation一定要符合人理解的直觉，并且尽量简单(不要用一些长span的缩写，e.g., src)

在这里插入图片描述
关于实验设计上(dataset,metric,etc.)推荐仿照一篇paper，不要想着去创新啥

赵鑫老师推荐的写作(改论文)的pipeline：

赵鑫老师也推荐我们在平时自己写作或者阅读论文的时候，把一些比较常用和native的phrase之类的摘抄下来(笔者也在做这件事情)：在这里插入图片描述
珍惜每一次论文修改，导师修改好论文之后不要放在那里就不管了，去看看为什么导师这么改，这样才能进步：

赵鑫老师最后推荐大家去看gpt2, 和gpt3的introduction。“写的非常好，需要强大的内力完成”。
笔者在这里贴上gpt2和gpt3的abstract截图,introduction可以自行查看原论文感受：

gpt2:

在这里插入图片描述

gpt3:

2. 如何想一个idea？(覃立波)

选一个有意义，可以长远做下去的领域，作为自己(maybe 整个博士阶段)的课题进行钻研。
在这里插入图片描述
逐层分析该领域现在的方法。以下图为例，从数据到模型，从编码到解码。看看有那个层面，目前做的研究还不够的。

e.g., 推进现在这个领域发展的，是数据集？还是模型？是不是现在模型性能都刷不上去了，但是数据集还是就那么几个？还是反过来？

在这里插入图片描述
覃立波学长强调留心自己的平时生活，多和别人交流探讨，有时候idea就是从平时聊天的某句漫不经心的话迸发出来的。

同时也要多考虑应用场景，NLP这个学科本来就是很特殊，它和应用紧密地联系在一起。我们在做研究的同时，一定不要忘了我们为什么要做这个研究，我们这个研究最后用在哪里，真实应用的时候它会出现哪些问题？我能不能在做研究的时候就考虑进去？通过这样的观察，也能想到一些很不错的idea。
在这里插入图片描述

3. 如何进行rebuttle？(王思远)

首先要详尽地阅读每一个审稿人的评论，每一个审稿人的每一个问题也好、观点也罢，都要确保自己完全理解！在此基础上，选择回复与否(有些正面的评论就不用回复了，或者是那种比较中性的评价，并没有challenge咋们的)，然后再确定优先级，优先级高的回复详尽一些，其余可以带过(节省字数)。

对于不同的reviewers可以分为下面三种类型，不同类型可以采用不同的回复策略：
在这里插入图片描述
在rebuttle的过程中，必须保持你的politeness！不管审稿人对你持正面还是负面态度，我们都要怀以敬意，毕竟人家也都是花了时间的 (据笔者自己的经验而言，rebuttle的时候你措词的诚恳、详尽程度，某种程度上也能够加分的~)：
在这里插入图片描述

如果遇到有些不负责任的reviewer，可以尝试直接和AC解释 (这点俺之前是真没想到)：
在这里插入图片描述
要注意reviewer话里面的潜台词：

在rebuttle里面不仅可以引用其他相关的publications，甚至还可以引用其他审稿人的评论。
(想起来之前做的一篇incremental的工作，其实从整个框架上看确实非常简单，没啥novelty，但有一个审稿人觉得我们的工作非常novel。现在想想，当时在回应其他两个审稿人的时候，就应该引用一下那个觉得我们novel的审稿人的话 [狗头])：
在这里插入图片描述
王思远学姐在此处强调，rebuttle这个过程不仅仅是为了能够让自己眼前的这篇文章能够被收录，更重要的是，在这个过程我们可以看到peer对于我们这片工作的看法，这其实也是一个反馈和迭代优化自身工作的过程 (从这个角度来讲，被拒稿也不可怕，拒稿的次数越多，得到的意见也越多，这篇工作自然也会有更多的提升空间,~~当然这句话只是用来调整心态的…~~)：
在这里插入图片描述

4. 如何进行实验设计？(丁宁)

丁宁学长分享的内容让笔者印象深刻。学长并没有将很多有关于实验设计的trick之类的东西 (笔者以前在听一些其他学者的相似分享的时候，总是会听到一些这方面的技巧)，而是在整个分享过程中，不停强调，我们做实验的目的是为了验证我们工作的motivation和contribution，一切以验证我们自己的工作，让我们的工作能够被后人放心地使用为核心目标。包括，我们实验的时候是否应该讨论方法的limitation，工作完成之后代码应该怎么release，readme应该怎么写才算详细？(将真心，很佩服这样的研究者，这才是一个真正研究人员的心态和动机)

下面这幅图笔者非常喜欢，算是丁宁学长总结的一个NLP领域搞研究的比较通用的pipeline (引起笔者的共鸣，尤其是idea exists…真的很常见但是没办法啊你)。
在这里插入图片描述
正常来说，想到一个idea之后的验证工作非常重要。所谓的验证，并不是你把代码敲好，跑了一通发现效果好，就直接大规模实验；效果差，就丢掉换一个想法。而是要知道，我的idea好，它好在哪里？需不需要和你的colleague讨论一下？这个直接关系到后面的实验设计和paper里面的motivation，以及idea的novel程度能否过的了peer的审美；效果差？它为什么差？这个非常重要，想清楚这个问题很有可能帮助你refine你的idea，从根源上就避免了你未来做很多无用的试验。
在这里插入图片描述
还是一句话，做实验是为了验证你的motivation和contribution，从而带给后人以启发，所以要确保你的方法有高可复现性。比方说上图，你不仅要列出你所有超参数，你最好还需要把你怎么选这些超参数，你的范围，你的策略都能够详尽地列出来，供后人参考(可以在appendix里面描述，包括你复现的baseline)

在这里插入图片描述
预实验很有必要(有些研究者非常喜欢做这种)，这种实验的一些发现很有利于后续一些工作把这个领域做大做强。比方说下图是最近何凯明发布的MAE中的实验，把自己方法的所有变量(甚至是data处理)都一一做了消融和对照，这样的工作，试问哪个读者会不放心论文的真实性？

在这里插入图片描述
有条件的情况下，尽可能把实验做到穷尽，想到什么都去验证，搞清楚自己到底在做啥？，这个领域到底需要啥？我们到底需要做啥才能推动这个领域发展？

同样的，不要刻意隐瞒自己的工作中存在的limitation，虽然这可能会影响到reviewer…从功利的角度来讲，可能会对自己有弊。当然，如丁宁学长所述，如果他是reviewer，看到有paper里面坦诚地讲述自己的limitation，并给出一些启示，反而会加分。(根据笔者自己的经验来看，如果是小白写文章的话，尽量还是坦诚一点吧，你文字上的一些trick是骗不了一些顶会的reviewers的，人家看你的缺陷看得一清二楚，搞不好遇上一些懂哥，发现你的trick之后反而印象上大打折扣；如果是学术老手，那另当别论吧…)
在这里插入图片描述
看到这段的时候真的产生了很强的共鸣，试问现在这个圈子里搞研究的那些，一大把都是发了文章，github一堆乱糟糟的代码一扔，管你后面几个issue，看都不回来看一下。丁宁学长所述很中肯，readme和注释，包括一些关键算法的对应代码，都理应公开出来，而不是要等到人家跑不通了来邮件联系你。
用笔者自己的话来说，我们的代码是写给人看的，只不过用机器跑了一下；我们的工作是要给别人用的，只不过在会议上曝光了一下。千万不要忘记自己到底在做什么。
在这里插入图片描述

5. 如何摆脱研究阶段的低谷？(李北)

李北学长的分享也很贴切，还很幽默。

首先，不要去对比其他人。这点笔者也深有体会，你越是和别人比，越是加剧内卷…每个人基础和条件都不一样，你比的不应该是现在谁强，你应该比的是以后谁更强；你不应该计较现在他比你多多少，你应该在乎的是你未来能提升进步多少。
在这里插入图片描述
不要忘了，读博是一场修行，是在锻炼你的心智。想不开的时候，记得切换注意力，要知道生活可不止眼前一展不前的科研，还有刺激的lol和pubg???

在这里插入图片描述
摆烂点，就一句话：反正已经在谷底了，怎么走都是向上的 [狗头]

在这里插入图片描述

pannel

pannel环节，几位学长学姐都针对很多参会人员提出的热门问题进行经验分享。

1. 本科直博 vs. 先硕再博

这个问题老生常谈，几位前辈提供了如下见解，笔者简略总结：

首先，你需要对未来非常清楚，对博士的课程和生活非常了解，对自己老板和实验室非常熟悉了，你才能有条件和自信去做出这个决定。
清楚你自己的vision，如果你是想要走学术(想要教书育人)，享受科研的过程并把它当做自己未来的vocation，直博无疑是快速便捷的一条路。
清楚自己的能力，你是否是一个有耐心、肯钻研的人？否则，读博可能会变成赌博。

补充一下笔者自己的看法：根据笔者向自己的一些学长学姐请教得到的信息，硕士阶段你能够想清楚很多事情(不仅限于读博，还有你的人生，你的价值观都会发生一定变化)，很多学生(尤其是中国学生)都是因为惯性选择深造，很多这些人后来读硕之后都想明白去工作了。另外，其实哪怕就是读了硕，你的能力也依旧在提升。不要忘了我们读PhD的初衷之一是为了修行自身。

2. NLP领域的学术和工业之间的区别和联系？

NLP这个任务是顶天立地的，你要知道你做的东西不仅是前沿，迟早也还是要落地的。
学术界教书育人，培养顶尖人才。这些人才或许还会回到学术圈培养更厉害的人才；或许会进入工业界造福产业，同样也回馈学术界。总之，NLP的学术和工业两个圈子之间的流动是一个正向循环。
不管身在何处，千万不要以数量为王。能独立一作就尽量focus，有时候甚至是共一都会有点影响。一大堆三作、四作只能说明你很active，你或许擅长social。真正厉害的人都是独立一作，哪怕只有四五篇(赵鑫老师所述)。