庖丁解牛剖析国际学术论文写作的快速入门

智源社区

于 2020-04-10 17:37:50 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/107540159

版权

2020年3月17日，在超千人同时在线的“智源论坛·论文写作专题报告会”上，三位智源青年科学家分别进行了精彩的在线分享，题目分别为：中国科学院计算技术研究所研究员兰艳艳《论文写作小白的成长之路》、中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》、北京大学研究员施柏鑫《计算机视觉会议论文从投稿到接收》。

他们通过丰富的实战示例，分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度，详细解析了如何写好一篇优秀的国际学术论文，收到了直播间观众的热烈反响。我们将他们的演讲整理成文字，陆续发布。

今天，我们将介绍智源青年科学家、中国人民大学副教授赵鑫《如何以初学者的身份写好一篇国际学术论文》。

赵鑫智源青年科学家、中国人民大学副教授

2014年获得北京大学计算机系统结构专业博士学位。主要从事面向复杂背景环境的用户兴趣建模和推荐系统的相关研究，在国内外著名学术期刊与会议上发表或者录用论文70 篇。其中，以第一作者或通信作者身份发表CCF A 类长文20篇，曾获得CIKM2017最佳短文候选、AIRS 2017最佳论文等。发表在主题建模方面的论文《Comparing Twitter and Traditional Media Using Topic Models》单文被引用1200 余次，所提出的Twitter-LDA模型已经成为短文本主题建模领域最重要的基准模型之一。累计谷歌学术引用超3300次。

本次报告中，赵鑫从一篇国际学术论文的通常逻辑布局入手：引言、相关工作、模型、实验、参考文献等，通过大量的实战示例，详细解析了它们的写作方法、技巧和注意事项等，此外还分享了他本人对于一些国际期刊的投稿经验。

需要说明的是，本次报告的示例主要以信息检索，自然语言处理以及数据挖掘的论文展开。同时赵鑫认为，国际论文不同领域的基本方法和思路都是相通的。写作堪称一门学术内功，需要时间加以修炼，报告人也在修炼途中；而且写作千人千面，没有绝对的正确和错误。本次报告仅作为他个人写作经验的一次交流分享。

下面让我们进入赵鑫演讲的精华要点部分。

整理：李卓然，李黎

首先，赵鑫给我们介绍了两篇主要的示例论文，第1篇发表在SIGKDD 2019上，主题是基于背景信息的智能化路径搜索算法。作者将从起点到终点的路径搜索算法定义为A*算法，原始的A*算法会分解启发式搜索值为两个部分，其中g用来计算历史消耗，h用来预估未来消耗，论文的新思路是采用了图神经网络进行计算，包括采用深度学习方法来计算其中的g以及h。

第2篇发表在SIGIR 2018上，是基于知识属性的序列推荐算法。赵鑫指出，为了帮助论文初学者们快速入门，他接下来的内容风格可能会有点像“八股文”：按照论文的撰写顺序，介绍每一个部分该怎么写，有哪些规范、技巧或教训等。

引文：论文必须装点的“门面”

一般来讲，摘要部分只要不出现太大的失误就不会成为拒稿的因素，但引文部分如果把握不好就容易成为文章被拒的理由，或者让读者难以提起兴趣阅读该论文。引文部分主要具有以下作用：

1.交代研究任务，向读者传达作者的任务和目的；

2.阐述研究现状总结不足，说明目前状态，为读者提供研究背景的铺垫，带出论文研究的挑战和难点，如果论文需要解决的技术挑战重大，可以单独列出⼀段进行描述。但切忌单纯罗列工作，而不突出难点；

3.提出解决的新思路，主要是用来引出论⽂的解决思路；

4.给出新方案的设计，较为详细地介绍所提出思路的实现；

5.总结论⽂的贡献以及实验结论，这部分需要总结并且强调论⽂的贡献。

以第一篇示例论文（SIGKDD 19）为例，其在引文中首先介绍了个性化路径推荐问题，即给定路网结构，旨在解决生成特定用户的路径推荐问题。因而需要突出在大图以及路网上的复杂性等难点。其次是在引文中阐述了研究现状并总结出了不足，为读者做出了研究背景方面的铺垫。这部分不同于对相关工作的介绍，主要是总结已有算法的不足。传统启发式搜索如A*算法的好处在于大图上的有效性，而机器学习算法的优点在于突出了算法的灵活性。很自然地，引出能否结合两者的优点呢？这一想法通过加入在策略游戏上的过渡句来带出：同时结合A*算法与机器学习算法的优点。下面还是给出新方案的具体设计过程，即通过一句话说清楚算法的具体功能与设计思路。最终强调论文的贡献，尽量避免强调的贡献过多，细致强调一个贡献效果更好。

在引文中也特别需要注意讲究逻辑性，逻辑错误是目前许多同学都会出现的问题。常见的逻辑错误有以下几个方面：

因为模型A好使，所以用A做某任务。这是机器学习学生前期论文经常出现的错误。典型的错误如“因为Deep Learning好用，所以就可以用来完成某个任务”；
因为任务B没有人做，所以我做了。没有人做的事情很多，并不能体现出意义；
之前的人做了什么工作，我做了什么工作，我的比前人做得好。这种情况很容易出现缺乏解释性，强迫进行衔接；
这个任务很难，这篇论文我们这样解决了这个挑战。没有突出解决过程中的思路描述；
夸大自己模型的贡献、忽略别人的工作。这一定要和related work建立联系，不能夸大贡献。

引文的确需要适度的包装，不能够进行过度包装。过度包装是对于学术的很大不尊重，如随意给出主观的意见；随意给出一些非常泛化的词汇；随意夸大自己的模型，放大自己的贡献。例如"significantly improve"这样的副词+动词结构是较为不切实际的，需要慎用这样的词汇，所以需要就限定范围与条件进行说明。

引文的作用就是让大家容易读懂全文，从而起到一个铺垫的作用，包括：解释清楚“主要术语”；解释清楚模型的主要涉及思维以及技术路线。避免面面俱到，自我沉浸，可以通过多画图举例来说明解决方法；强调主要创新点，放在显眼位置。

综上所述，赵鑫对引文(Introduction)的写法“六句扩展法”进行了如下总结：

①第一句写任务介绍以及研究意义

②第二句概述研究现状以及存在主要的问题

③第三句写解决这些问题的研究挑战

④第四句写当前方法的主要出发点以及解决思路

⑤第五句写当前方法的主要技术方案

⑥第六句写总结、强调贡献

写出这六句话后，可以分别按段进行拓展，用以完成introduction的写作。

除此之外，在引文写作中还需要注意过渡词的使用，例如yet、although等。

在更高层级上去理解引文写作，这是一门讲故事的艺术。通过讲清楚故事让大家明白所做的事情，说清楚工作的重要性，让大家觉得结局思路好，工作有不可或缺性，甚至达到如沐春风的感觉。这需要把握引文写作的节奏感，需要交代背景，做好铺垫，解析细节，总结重点。

相关工作：分类整理，覆盖全面

论文写作中相关工作部分的要求，主要包括这四个方面：

①尽量覆盖所有相关工作，其中可以匹配一些特定排版风格；多读论文；

②进行细致的分类整理并突出相关之处；

③强调差异与不同之处，例如主要任务，数据，算法的归纳与整理，这样可以写的非常高瞻远瞩并且浓缩；

④兼顾长写与短写，铺垫好足够的内容再展开相关工作。

在这个过程中，以下几点错误是较为常见的，我们需要特别避免：

简单罗列阅读文章，并没有在平时读论文的过程中做到分类总结；
没有讲清楚区别与联系，这体现了对论文进行分类总结的重要性；
语法错误，论文的时态可以选择过去时或现在完成时，但切忌混乱使用时态;
套用与滥用模板。

定义：清楚明晰是关键

通常来说，定义部分主要具有以下三个作用：

① 介绍清楚所有术语，让符号符合人的直觉与常用思维（如首字母命名法）；

②给出所有符号的含义以及使用方式，好看、好记、成体系并活用上下标（推荐花书的符号参考，避免黑白式符号）；

③形式化地描述清楚任务。

在定义的写作中，其中需要注意或避免的问题有以下几个方面：

⼀个符号多次使用，又代表不同意思
全部使用未加粗的notation表示集合、矩阵等
符号不遵照习惯使用
频繁使用⼀些单词的缩写用于notation (src,dest)
频繁使用上下角标都存在的符号
符号的数量过多
\log,\exp\min……这些数学符号都有规范的用法，不能直接写“log”之类，需要前面加一个斜杠代表数学公式。

模型部分：注重逻辑与收尾

模型部分的写作一定要强调逻辑，这对论文最终呈现出的质量极其重要。其中，最基本的逻辑形式分为总-分式和总-基础-增强式。总-分式的逻辑是指模型有若干个部分并对其分别加以介绍，各部分联系紧密且title比较清晰；总-基础-增强式是指首先概述一个基本模型，并在基本模型之上进行拓展。

在对模型进行收尾即在总结模型训练的过程中，可以通过加入模型分析、模型训练和模型学习等方面的介绍，用以对于模型进行完善、升级以及延伸。”可以将讨论主要放在以下几个方面：

• 正确性证明

• 时间复杂度

• 完整的算法流程

• 参数汇总+学习算法

• 与之前工作的区别（突出创新性）

• 与之前工作的联系（增强泛化性）

• 模型可扩展的地方（堵漏）

实验部分：注重对比实验

在文章的实验部分，往往遵循如下的一般流程：数据集合（包括：评测指标和评测流程）、对比方法、主干实验分析、模型细致分析、定性实验，下面是各流程节点写作的详细方法：

1.数据集合，首先要在文章中写明原始数据来源，以及经过哪些预处理步骤得到最终用于评测的数据集。最终的数据还要列表进行诸如数据量类别数等的对比。一个小技巧是将表格中的数字右对齐，使用逗号表示法，如“200,000”，这样方便审稿人进行比较不同数据集合的大小。至于评测指标和评测流程，新任务的评测指标或流程，则要详细给出，老任务的则可以沿用已有指标。

2.对比方法时首先要简略的介绍baseline，若有特殊实现或者重要参数需要指明。而后需要对baseline进行整体总结。最后可以利用表格的形式对不同方法的性能进行对比。

3.主干实验分析时首先自己要清楚实验目的，文章中对实验的分析是为了证明文章的贡献、发现或者结论。不要流水账一般，比如A比B好，B比C好，而是要突出原因。此外若有些实验结果不如人意，也要进行分析。最后还要进行统计性检验证明提升有效。讲者举例如下，可以看到作者分析了过往方法的不足和优点，证明了自己方法的优越之处。

4.模型细致分析时可以通过Ablation study展开，也就是利用控制变量法对结果进一步分析，从而得出不同组件的贡献。此外还可以进行组件内部调节分析，以及不同参数或者不同数据处理下的对比分析。讲者举例如下，可以看到作者进行了不同组件贡献的分析，还有各个组件内部不同实现的分析。

5.定性实验是指举例子进行实验说明。用例子来解释想法的有效性，或者解释结果显著提升是基于哪些场景，本质上是对引言中motivation的呼应。举例子时应该注意不要探索式的写，而要有核心驱动，也就是直截了当的去举例证明自己的motivation。举例子的主要形式是一个图搭配一段描述。需要注意的是图的标题里要将图中的符号、颜色和整体场景设置等写清楚，而不能写在文本描述中，图本身要自洽。图画完之后要写一段对应的文本描述，首先写清楚目的，接着写清楚当前例子的整体故事，然后分解进关键部分，也就是图中哪些地方可以证明讲的故事，最后一句话进行总结。讲者举例如下，可以看到作者在图标题中将图中符号颜色等都进行了说明。

而在文本描述中，也是先交待了故事整体，然后针对图的不同部分进行阐述，对文章的motivation进行验证，最后总结了文章提出模型的作用。

摘要和总结：整体把握

写摘要应该是时间花费最少的，建议在文章完结后进行摘要写作。因为此时论文已经成型，方便你直接借鉴或者改动论文中一些已经很成熟的重要语句。摘要部分要注意讲清楚任务、方法和创新点，不要提实现细节，不需要代入，而是要直接了当地写。

总结也是一样，简要总结工作，不要再埋包袱、打伏笔，具体流程可以这样写：①具体任务、②解决方案、③实验结果、④未来扩展。需要注意的是，语法上，现在完成时和过去时都可以，但是不能混着用。

写作习惯：如何安排写作顺序

对于论文写作、修改时的流程，一般来说，我首先会花费半天时间写相关工作，之后会对问题定义和模型细节进行足够了解并且进行写作，随后将写作重点放在引言和实验部分，一般会在2-3日内完成初稿。初稿完成后会花费一天时间在引言和其他部分反复进行迭代修改，全文定稿，最后完成摘要和结论部分及修改相关工作（如下图）。

对于论文写作、修改，推荐的方式如下图：

在论文写作中应该避免的问题上，除了下图列出的一些问题，还涉及到了不同p题目之间要有关联性和逻辑性，同时要避免无意义的长句子，对于自己文章的贡献，应该在几句话内讲明白，不要舍本逐末罗列太多创新点。此外，要注意英语词汇的正确用法，避免缩写。

此外，要使用英语词汇习惯的正式用法，避免缩写等（如下图）。

建议：最快、最稳的论文写作学习法

演讲最后，赵鑫提纲挈领提了一系列“high level”的建议。

首先，是论文写作中一些“固定而正确”的实践建议，赵鑫解释说，“只有学会跑之后才能考虑飞翔”，初学论文者首先要像学习八股文一样进行论文写作。具体建议如下：

学一手好的LaTex，建议模板化、流程化、标准化。同时观念上将写论文作为科研的一部分——只有做好了科研，才能写出好论文。
学会一些固定转折、承接、突出、总结、代入、发现、介绍等固定语句。
重学四级单词或者学术论文常用单词，了解这些词的准确用法。（可以写个程序，找出来最频繁的词汇，以及它们的搭配，对于自己使用的新搭配要小心）
建议学会一套好的画图技术、做表技术
相关工作应该平时准备好，对于bib提前找好
自己做拼写检查。

对于论文写作，最快的学习途径，赵鑫认为是不断地复盘：多写论文，然后找师长修改；赵鑫强调：“要珍惜每一次老师给你的修改。作为中国人，尽管老师难免可能会出现语病，但他毕竟写过的论文比你多，一定要好好琢磨他为什么这么做”。

对应的，对于论文写作最稳妥的学习途径，赵鑫建议寻找一些科普的文章，如一些大组的工作，从头到尾去学习写作、背诵甚至默写；此外还有一种“廉价”的方法，是读论文的时候不看abstract，从而根据论文写abstract，然后进行对比，这在本质上相当于是写论文然后找人修改的过程。

对于期刊论文的写作，赵鑫的建议包括如下要点：

学会把论文写长、但又看起来也不冗余。所以如何使用图表、公式，如何组织十分重要。
尽量把参考文献写全。
尽量把实验做全。
写好Response很重要。期刊论文的response和会议论文rebuttal的重要不同之处，要保证自己会进行修改。

赵鑫的最后一个建议，是要养成写英文note、特别是写数学推导note 的习惯，比如对图神经网络等最新的算法或者模型进行总结或者推导等。这样一方面有利于对相关领域或知识进行有效梳理，另一方面有利于自己的复盘，可以有效提高英文的逻辑表达技能等。

Q&A

Q:先写中文还是翻译全英文？

A:如果英语不好，可以先写清楚中文的六句话然后再翻译。

Q:Related work和Introduction的研究任务有什么区别？

A:Related work是要突出覆盖性，Introduction主要是强调现在已有的工作为什么解决不了当前的任务，没有必要面面俱到去介绍。再就是Introduction里面所有相关工作的介绍，都是为了突出你要自己的工作。

Q:论文比较时用自己复现的代码还是别人原始代码？

A:看原作者愿不愿意去share，如果share，建议用原始那个代码。

Q:先写内容还是先排版？

A:先写内容再排版，但是提前一定要做好模板，比如图应该怎么放，表怎么放，然后比如说哪个章节应该怎么写。

Q:写论文的时候一边看文献一边写，还是先看很多文献再写？

A:如果文献没看到足够多的时候，不建议写论文，因为文献不足够多的时候，可能你现在做的工作别人已经做过了。

Q:画图做表用什么软件更专业一些？

A:Visio、PPT。对于画图一定要留时间，画图最后一定要留出一天或者半天时间。

Q:读论文数学推导如何看？

A:建议大家都去看一下国外机器学习课程的数学推导note。

Q:Note要有什么模板？

A:随便去上一门国外的机器学习的课上，一般可以找到相应的作业LaTex模板，或者直接搜note+tex+template。

Q:写Related work的时候，可以借用之前别人的句子或者微小的改动吗？

A:不建议完全去抄别人的，但是可以变一些句式，可以去做一个基本的命名。

Q:与baseline比较的时候，可以取人家的结果可以吗？

A:在通用的比较环境下，可以；如果使用了不同的实验设置，例如数据变动了，不要这么做。

Q:Reject到Resubmit的文章，没有说出具体截止时间，一般多久结束？

A:半年。

Q:Note有什么地方可以分享？

A:可以挂在一些网页，或者让你的老师帮你宣传一下，或者挂在一些公众号上都可以。

Q:怎么follow相关的研究的最新进展？

A:Google Scholar；大牛主页。

Q:怎么做论文分类汇总？

A:建议做重写摘要，或者试着对每一篇看过的论文用一两句话说清楚contribution，然后再去做论文分类。

Q:博士期间应该注意数量和质量?

A:数量保证毕业，质量代表实力。

Q:如何找出大牛?

A:把现在领域的顶会论文，近五年的paper拿出来，然后做引用排序的author list。

Q:Related work可不可以不特别相关？

A:可以拓展，但不是不要故意占用空间。

Q:会议改期刊需要什么注意的?

A:一定要做有意义的增量。

Q:读论文的时候可以从哪些方面去找可以改进的地方?

A:只能多去思考。

Q:论文放在文件夹里有的时候会乱怎么办？

A:记在脑袋里。论文不多的时候，应该清楚地记得每一篇论文讲的什么东西。

Q:怎么增强理论基础?

A:建议先系统看几本书，或者做一些note。

Q:模型中用的理论都是别人的还用写出来吗？

A:加一些引用。

Q:Sota论文太多，怎么选baseline？

A:大概归类，每一类都覆盖一些。

Q:实验效果好，但是没有理论支撑怎么办？

A:一定是没有想清楚整个模型的contribution是什么，建议多和交叉领域的同学去做一个结合，或者让老师去帮你想想。

此外QA环节中，赵鑫还提到以下几点：

1、建议大家读论文的时候，一定先有一个大概的topic，把论文量首先积累到50篇，然后开始做一个分类的操作，然后做一个重写摘要的操作，这两个事情做完以后，论文基本上确定了。不要硬写论文，一定想清楚自己的contribution是不是已经足够了，或者自己是不是已经做好了写论文的准备，做好文献阅读的情况下才可以写论文。

2、论文中相关术语的缩写一定要和原始论文中的一样，比如BERT不是Bert或者bert。

3、不要把图画得复杂，把故事说清楚，就是图要画得越简单越好，很多情况下是因为要讲的故事复杂它才复杂，千万不要把模型图画得太复杂。

智源论坛，AI技术前沿精粹尽览

独家经验分享，顶尖学者零距离

探讨前沿技术，亦分享职业经验

助你成为更好的研究者、工程师

敬请期待“智源论坛·论文写作专题报告会”下期：

施柏鑫《计算机视觉会议论文从投稿到接收》