前言:
通过一学期闵帆老师的论文写作课程,我收获了系统的论文写作知识体系和宝贵的经验。闵帆老师采用的教学方法深入浅出,不仅消除了我对学术写作的畏惧感,更培养了我独立写作的能力。在此记录课程要点和个人心得,以供未来写作参考。
学术论文的基本概念:
学术论文是对研究工作阶段性成果的总结,单篇论文的内容不必过多,着重突出一两个创新点即可。如果有一系列相关研究,则可以撰写多篇论文。每个部分的内容都有固定要求,以便读者能够快速找到所需信息。论文不需要追求华丽的语言表达,只需确保内容准确并按规范格式呈现。
写作前的准备
-
多阅读顶刊文献积累
理清文献做了什么,怎么做,解决什么问题,填补了什么空白。提炼总结文献的思路和方法对我的工作有何启发。 -
写作有模板
论文不是从零开始写,需要先总结出模板,在模板基础上添缺。模板的总结也来自于文献的阅读积累。 -
善于使用工具
Latex是实用的排版工具,优秀的工具也让写作更为顺畅。
英语写作
-
慎用的单词与短语
一般而言, 未出现在任何学术论文中的单词,不可以使用。have’t 与 don’t不应简写。句首禁用And,句中慎用and。禁用easy,慎用simple,solve,novel,only,prove。 -
借鉴法
找 20 篇顶刊的论文,找出各个部分的简单句子,获得句型并用于自己的论文。 -
倒腾法
将自己写出的英文句子,用谷歌翻译在中英文间来回倒腾,直到中英文句子都不再改变(收敛),最后调整句中的非专业性词汇。
符号系统与数字表达式
- 式子,符号不额外处理
论文里不要对式子,符号进行额外的,特殊的处理,包括强行增加空格,花括号等。 - Latex处理数字表达式
Latex用于处理数字表达式比word更优秀。严禁先用 Word 里面的公式编辑器写数学式子, 再转到 Latex。这样很容易出现第 1 项所描述的问题。 - Latex处理斜体正体
一般的变量 (标量为) 斜体的, 而常数和运算符是正体。 在 Latex 中用 $ 符号将它们括起来就可以了。 - 检查符号系统的一致性
不同字体的同一个字母表示不同的涵义。 因此, 应检查符号系统的一致性。 - 数学式子有标点符号
数学式子是句子的一部分, 因此它们应该有相应的逗号,分号,句号。 如果使用逗号, 后面的部分应该顶格写, 以表示在同一行。 还应以小写开头, 表示是句子的后面部分。
标题
标题对于论文来说至关重要,一个好的标题能够激发读者阅读的兴趣。
(1)一个好的标题应该简洁明了,让读者一眼就能理解文章的核心内容。为了让标题更容易被读者接受和理解,我们应该使用该领域常见的词汇,避免晦涩难懂的术语。
(2)标题的长度也很重要。太长的标题往往意味着研究范围过于局限,反而会降低读者的兴趣。建议将标题控制在40-60个字母之间,并适当使用该领域的热门词汇,这样不仅便于他人检索,还能提高论文的引用率。通过精心设计的标题,我们可以让自己的研究成果更好地被学术界关注和认可。
摘要 Abstract
通常包括:已有工作的评述、本文工作的描述、实验结果。(background, contribution, experiments)
-
规范十句
-
问题及重要性: 交代所属领域、解释重要概念、强调问题重要性。
-
不要干巴巴地只说important,写具体写清楚具体是有什么用,给干货,勿抽象。
-
-
已有工作: 描述流行解决方案(“巨人的肩膀”)。
-
已有工作局限: Howerver开头。
-
此句实为挖坑,后面要填上,慎重!
-
不要批得太强烈,尊重别人,而且万一批的是审稿人呢。
-
-
本文工作: In this paper开头。
-
此句实为题目的扩展,要有算法的缩写。
-
全文唯一可以超过20个单词的句子。
-
-
技术/步骤/方面/优势/贡献: 一般包括三个点,否则工作量不够。
-
实验设置: 交代数据的领域、来源、数量。
-
实验结果: 点明提高了准确性、效率之类的。
-
关键词
关键词常被看作摘要的一种补充,一般需要 3–5 个关键词,关键词一般由 1–3 个单词构成,将关键词按照字母表排序,有些期刊支持两类关键词index term: 由期刊提供, 只能从投稿网站给定的列表选择和keywords: 作者自己按需写.
引言
-
讲完整的故事
引言的本意是为论文作一些铺垫, 但在计算机英文论文中, Introduction 需要讲述完整的故事。 -
有八股的套路
采用与摘要相同的节奏,将摘要的每一句,都扩展为引言中的一段。每段的首句可以把摘要对应的句子稍作修改活用,做该段的主题句。 -
字句数有限制
每段应有5-10句,这样每段大约有50-150个单词。相邻太短的两段应合并,段落太长的某段应拆分。 -
开局一张图
计算机领域(特别是顶会)流行在引言里面放 “开局一张图”,该图可以展现核心技术,算法框架,小的运行实例,效果对比等等。 -
引言有层次
引言的层次从单词,句子,段落到章节。需没有拼写,语法错误(单词级),表达简洁,得体,有力量(句子级),丰富(段落级),条理清晰,节奏明快(章节级)。
文献综述
-
文献综述必不可少
每篇论文都应有文献综述,表示对前人工作的尊重,当读者不清楚某些技术的细节时便于查阅,并可以在不同的地方描述,而引言中通常描述的比较简略。 -
应分门别类的介绍
为了便于读者理解我们工作的位置,需要分类的去介绍。有时会大类套小类, 逐步细化。 -
参考文献的引用
参考文献的引用一般仅仅是一种附属品,同时不应将参考文献的引用作为句子的主语,宾语等。不要一次性引用太多文献,且不提倡全句引用。
算法伪代码
算法伪代码是论文的核心之一.需要说明输入、输出;方法 (函数) 名可写可不写, 如果被别的方法调用就必须写;需要写出主要步骤的注释;长度控制在 15-30 行;可使用数学式子或对已有数学式子的引用;不重要的步骤可以省略;一般需要进行时间、空间复杂度分析, 并写出配套的 property 以及相应的表格, 以使其更标准.
实验部分
对于很多机器学习论文, 实验部分占据了论文一半的篇幅.
(1)数据集信息
数据集越多, 覆盖领域越广, 结果就越可信. 从软件测试的角度也是如此.在多数情况下, 12 至 20 个公开数据集就足够了. 然而, 对于一些领域和问题而言, 数据集却非常珍贵. 可以使用人造数据集, 或者数据集随机采样成多个, 来缓解该问题.数据集大些更好. 获取自己主要参考文献中的数据, 有利于进行比较. 你甚至不需要把他们的方案实现. 在一些领域如图像和视觉, 会有一些专门的数据集供大家测试.
(2)自问自答模式
实验的主要目的是回答一些作者和读者关心的问题. 因此, 我采用自问自答的方式, 在实验之前提出这些问题, 在实验结果列出之后逐个回答它们.
(3)内部比较
内部比较的动机包括:展示参数变化所导致的性能变化和展示主要方案与其变种相比的优势.
(4)外部比较
外部比较即与已有算法进行对比.需要比较经典方案, 基准方案, 最先进的方案.很多时候使用柱状图.如果数据太多, 用表格就比图合适.如果要把参数影响, 数据集大小影响也表现出来, 就只有用折线图.最重要的比较放在最后.要有足够的文字进行分析, 不能让读者自己去观察.并不需要在所有数据集上击败其它方案.在分析自己方案优势之余, 也应该分析它的劣势. 因为机器学习的基本规律就是 No free lunch, 即一个方案既然有优点, 就肯定有缺点. 既然有擅长的数据/指标, 也就有不擅长的数据/指标.
结论
结论一般不要太长, 5 句就够了. 如果想讨论的内容比较多, 应该在本节之前加入一个单独的Discussions 小节.避免使用与摘要内相同的句子. 摘要里面说我们做了哪些事情, 而这里应该说我们获得哪些观察与结论. 也就是说, 结论比摘要更加具体. 可以具体到论文中的某个算法, 某条性质, 某个定理, 某个实验结果, 这样就自然与摘要区别开来.如果要讨论说进一步工作, 可以列出 3 至 5 条, 不算在 Conclusion 的字数里面. 读者很可能非常关注这一部分, 因为他们可以按照这种思路继续进行研究. 作为一项研究工作, 打开一扇门比完全解决某一问题更重要. 如果这一部分写得好, 就会有很多的引用. 引用数量也比论文发表数量更重要.