AI论文的阅读、评审相关技巧经验总结

本文链接：https://blog.csdn.net/heros_never_die/article/details/104083282

前言

入学至今，参与了些许学术工作，有所感悟，故在闲暇时间写点博客，有所积淀，既是给自己总结，也希望能对学弟学妹有所帮助。各个环节非常需要培养和锻炼，总体基调还是熟能生巧，但获取相关技巧能帮助我们少走不少弯路。

一、关于阅读论文

1.论文的获取

这里假定我们已经确定了研究方向和课题。

(1) Arxiv

如何阅读一篇论文

地址：www.arxiv.org

arxiv是个Cornell大学创办的预印本发布网站，有搜索栏，很方便。

不过要注意的是arXiv只是个提交论文预印本(preprint)的平台，里面的论文都没有经过同行评审(peer review)，所以文章质量层次不齐。当初挂这个是为了防止idea撞车，但是现在软柿子捏得差不多了，防撞车的热度有些许的下降。有时候会在论文正式发表以后再在这里挂，目的是为方便那些喜欢用这个平台搜文章的人能搜到，有利于提高被引概率。不过近年来盲审政策趋严，为了避免不必要的麻烦，在文章录用结果出来之前少折腾是比较保险的。另外，也有相当的人不用arixv的，这部分文章需要用别的方法找。

另外，论文发表的时候，bib里都推荐引用正式发表版本，而不推荐arxiv的预印本，尽管引用预印本的现象挺常见的。

(2) 谷歌学术

地址：scholar.google.com

非常适合查找已经知道完整标题的文章，一般很准确，也是不少人的首选。

普通关键词搜索也可以的，搜索条件也有很多可以设置的选项(例如年份)，但是谷歌学术的排序结果有他自己的一套算法，比较热门的文章好搜，当你想获得某领域更小众的文章会有些许的麻烦。另外，据说有研究表明谷歌学术考前的文章比靠后的文章被引的可能性更高，说明大家都会有一些习惯和倾向,，毕竟门槛低。

(3) 会议网站(推荐)

做相关领域的应该都会听说对应的顶会，直接上去手动扒就行了。每个网站的设置都不太一样，需要自己稍微摸索一下。一般会议网址里会包含年份，改一改就能找到往年的。顺便夸一句，ICML和ICLR的网站做的简洁明了，往年的汇总在一起。一些oral文章的Talk也可以看一看，可以帮助了解论文。另外记得善用浏览器的Ctrl+F来查找。

至于计算语义学相关的文章，ACL都整理的很好，各会议汇总(例如ACL，EMNLP，NAACL)，历年汇总，bib也有，非常的方便。传送门：https://www.aclweb.org/anthology/

计算机视觉相关的也有类似的汇总网站：http://openaccess.thecvf.com/menu.py。

(4) DBLP(推荐)

dblp computer science bibliography

计算机科学文献库，提供计算机类文献的集成数据库系统。按年代列出了作者的科研成果，包括国际期刊和会议等公开发表的论文。这个非常的全了，可以查会议，查期刊，查人。有些会议开始要求填写DBLP个人主页了呢，大概为了方便分配待评审论文吧。

资源地址：http://dblp.uni-trier.de/

CVPR历年汇总：https://dblp.uni-trier.de/db/conf/cvpr/index.html

那么我并不想找具体的一篇文章的情况呢？有空可以看一看公众号，比如说

机器之心，AI科技评论，我爱计算机视觉，量子位，新智源，极市平台，PaperWeekly之类的。

2.论文的阅读

S. Keshav教授分享了他的阅读论文的经验，刚好可以分享一下：https://zhuanlan.zhihu.com/p/26809975

其他相关阅读经验：沈向洋：读论文的三个层次

我个人感觉整个过程是需要积累的，见得多了，看到点新的，理解的也很快，见怪不怪了。

这个过程的积累包括：特定领域的英语词汇(e.g.感受野)，很常见通用的公式(早些年的LSTM全家桶，GAN的优化公式，RL的reward求导)，常见手法(拼积木水论文，搞点层次性，套上GNN，引入KB，花式Attention，搞强化，搞对抗，搞少样本，套贝叶斯，套变分)。内心：加，都可以加。计算机视觉领域如何从别人的论文里获取自己的idea？https://www.zhihu.com/question/353691411

对于一些好的论文，不仅仅要看内容，文章的组织方式也非常的重要，甚至于一些有代表性的文章，日后自己写文章的时候要拿出来反复参考。

应当关注的组织方式包括：

论文introduction怎么讲故事的：针对痛点型，人类启发型，完全独创型。
论文introduction怎么组织的：研究背景和意义→动机/痛点/人类启发→进一步的分析→本文提出的解决方法→实验效果。如果有两个独立的贡献怎么串起来，相互交叉的贡献如何写的不混乱，上下文衔接如何自然。
论文的approach如何写的形式化、清楚明了：用数学模型和公式表达。人家的插图怎么设计的。
论文Experiments怎么设计：文章的实验部分有哪几块？以后自己的实验该怎么设计？典型的模块：和SOTA比较，Ablation消融实验，作者自己提出的新型评价方法，可视化(attention，emebedding，mask，representation)，Case Study样例分析，关键参数的影响。

以上是一些简单例子，并不全面，有机会还得把完整的论文流程的坑填一下。

二、关于论文评审

先贴一点大佬的见解：https://zhuanlan.zhihu.com/p/49975649

接下来是我个人观点：

个人感觉，撰写论文和评审论文，都是学术审美的体现，而评审论文真的是一件非常主观的事情。评审的时候会首先定一个基调，这次的评审意见是准备写积极的还是消极的；接下来，积极的意见便是抬一抬文章的优点，消极的，则麻烦一些，逐点攻击文章的弱点，论述要充分。然而没有文章是完美的，根据基调的不同，可以睁一只眼闭一只眼给weak ac，避重就轻，也可以花大力气反复找问题，也总是能找出来的。说白了，关键是reviewer第一眼喜不喜欢这个文章。不同质量的paper似乎可以看做正太分布，特强特差的文章是少数，大多数文章还得在borderline附近摸爬滚打。所以borderline paper能中还是要一点运气的，遇到看对眼的reviewer就过去了，遇到不喜欢的可能就凉。(IJCAI-20都开始灭霸拒文法，随机毙一半了，:-D)

实际上，审稿的矛盾一直是困扰着大家的问题：

有的人投半成稿，要是能中的话当然是中奖了，camera ready这段时间再润色一下；大概率是不中的，为的就是听点意见。然而这样增加了审稿负担，审稿人很有可能要读篇烂文。
当审到一篇烂文的时候，读完就很痛苦，花更多时间更是浪费时间。给人家过是不负责，损害会议名声，损害所有投稿人利益。要给人拒了，拒的越强，理由就越要充分，浪费的时间就要更多，形成矛盾。

总的来说，要给人ac，审稿意见写起来是比较轻松的。给人rej，必须要理由充分——把人喷死，不然别人会argure(老板的话) 。抱着什么心态来审稿，那就因人而异了。至于学术审美的培养，是个长期的事情。刚接触的时候，学术审美很有限，会过度关注实验性能提升和文章所采用的技术，甚至可能会以oral以上的挑剔眼光来看文章(因为平时容易看到的是些典型工作)。创新有很多种，技术上原创的固然厉害，但也是少数；而至于borderline文，更多的是组合创新，人家看到A方法在甲问题上有效，受启发把A方法用在乙问题上，都是常见的。组合水论文是成本最低的方法，也是其他学科经常容易遇到的情况，鸟屎+石墨烯也是好的电催化剂(笑)。看到水文也不必太过气愤，仔细想一想就会发现，自己做的也是差不多的拼积木的活。所以，novel不novel，是simple还是complex，都没有很统一的标准，从宽还是从严，也看个人。于是technical contribution有限的情况下，文章的动机、思路是否合理，实验设计的好不好，写作水平怎么样，这些就更值得比较了。一个比较简单的思考方法是，如果让你来做这个idea，你会讲什么样的故事，怎么设计实验。靠讲一个好故事而中的文章，大家都或多或少见过一些吧。

下面总结一些常见的攻击点：

文章的思路、动机或者方法上有问题，这种一般要具体问题具体分析，一般来说是致命的。
文章创新性和技术贡献有限。(1)创新性有限：把XX加在下游任务是很常见的做法，已经有xxxx等工作，而这篇文章的做法非常的简单，这种融合方法也非常的普通，有xxxxx等工作。(2)技术贡献有限，针对文章的总结的贡献逐条攻击，例如层次型的结构是当前任务特点造成的，以前的工作xxxx都是层次性的，所以本文的层次性结构技术贡献有限。
文章的组织不太好，尤其针对introduction，xx部分讲了A，接下来讲了B，之后又回过来将A，非常的混乱。XX部分讲了A，后来XXX部分又讲了一遍A，比较冗余。方法部分，xxx公式有问题。
针对实验的攻击一般来说是最多的：(1)没有和其他方法比，比了一些方法但是没有和sota方法比，reviewer见过更强的。(2)只在一个数据集上做了实验 (3)evaluation太单一了，没有从多个角度evaluate 。(4)实验设置不公平，本文的方法加入了额外的人工标注信息。(5)表格的数据有问题，XX情况下加了文章提出的模块后，指标A有所提升但是指标B比不加还低。(6)实验的提升效果是marginal的，就只提高了1%

这些点在自己写设计实验和写文章的时候都注意到的话，会形成一种“创新性很有限但是完整性非常强”的工作，reviewer就算想喷也很难喷动，最多给个weak rej，有的直接weak ac，这时候完整性越强，中的机会就大一分。

关于review的具体写法，不同会议、期刊模板不一样，但总体思路是类似的。“先介绍文章做了什么，总述一下你对文章的看法，归纳优缺点。然后详述优点1，2，3...；缺点1，2，3...”。比较典型的：

This paper focus on.../propose a .../tackle the proble of ...用自己的话概括文章内容

strength:

weakness:

写的时候有一些注意点：

不是单纯的说好或者不好，好，好在哪里，不好，不好在哪里，有什么更好的处理方法。人家投稿不中的话，也很希望得到建设性的意见，有利于再投稿的那种好的改进意见。
注意表达委婉，不是单纯的训斥，不能太offensive，虽然很多时候是无意的。要尊重别人，表达礼貌，尽管你不那么喜欢这篇工作。因为是很主观的东西，应该用一些虚拟语气。例如，“xxx做法是更好的”与“xxx这样做可能会好一些”，后者是更加委婉的，review自己也没做xxx的实验，怎么就知道xxx做法就一定更好呢？其实这些意见，也是有主观性在里面的，只是review根据看过的工作作出的推断而已。
委婉的表达方法的例子：

It is recommended that
could do something, xxx would be better.
I suppose/assume/guess，perhaps/maybe

当然，对于一些你认为该强制修改的，比较重要的东西，是该语气强烈的指出来的。例如：The difference between this work and [wrok xxx] should be highlighted

关于写rebuttal：

浅谈学术论文rebuttal

如何写学术论文的rebuttal？

怎么写 Rebuttal 才能让评审和领域主席心服口服？

论文得分低、濒临被拒不要慌，18条rebuttal小贴士助你说服评审和AC

rebuttal指导会议纪要：

一般要回答review的问题(IJCAI20特例)。
SPC以rebutal为主要根据打分。
共性问题答好加分，单独问题答烂扣分。
如果A和B问了有联系的问题要联系起来答。
不仅要看到reviewer的问题，还要思考他为什么问这个问题，他真正想要的是什么。
不要单纯重复文中的内容，reviwer可能是仔细看了没理解，而不是没看到。
尽量考虑说服reviewer，“在未来考虑”不是一个好选项。
不能凭空增加contribution，如果reviewer要求了再加相关实验。
如果能做的实验一定要补，不能做的尽量讲明，有的实验在不中的情况下，也是下个版本要加的，跑不掉的。
保持礼貌。
rebuttal要表现自己认真的态度，印象分。

IJCAI20特别踩坑记录：

由于IJCAI20改革，第一轮看不到review分数，只能看到意见，并反馈是否有事实性错误，于是产生了一种特殊的“阴阳怪气型reviewer”。他写的看上去像正面评价，仔细读以后有隐含意义，语气不强硬，也说不出致命问题，给Reject。但是第一轮填写是否有事实性错误的时候没仔细看他，以为是正面的，分数结果出来才知道被摆了一道。

举点听说过的例子：

1.这篇文章做了xxx，有啥xxx好处，写了好几行，最后角落里来一句，It is unclear how far from useful these explanations are(文章的东西没鸟用)(但也没有具体分析论点有什么不对，或者先前有没有类似的).

2.It is very relavent to the IJCAI(想不到其他优点了，垃圾水文配垃圾水的IJCAI)

3.What is Resnet？(都2020年了你还在和泥巴？Resnet还需要你介绍那么详细？)