《论文写作》课程总结
前言
一学期就这么要结束了,当然《论文写作》的课程学习也结束了,虽然课程结束了,但我们后续三年就是这门课的实践,希望我们都能发出一篇论文!!当然大佬可以多发几篇顶刊顶会,以下是我对这门课的心得体会。
1.学术论文概念
关于论文写作的what、why、when、how、where五个方面展开。
(1)what:学术论文是对研究工作的阶段性总结,单篇论文不应该强行灌水,内容也不需要太多,创新点1、2个就足够了。每个部分内容有固有的要求,方便读者找到自己需要的内容。也包含结构清晰的表格,这些都是刚需。
(2)why:论文的初衷是为了知识传承与学术宣传,同时也是科研人员交流思想的方式;对于学生来说就是为了达到毕业条件,这也是每个研究生面临最现实和棘手的问题,关乎着能否顺利毕业,每个研究生都必须早点重视;对于其他人就是为了评职称。
(3)when:随时都可以,越早越好;研一下学期还不动手,研究生就很难毕业,研一上半学期就需要大量阅读论文文献,找到写论文的感觉,学习他人的思路与方法,最重要的还是找到灵感,形成自己的知识体系,最后将idea实现。
(4)how:第一种方法是自己通过大量阅读文献,了解作者的行文思路、学术思想、实验过程等,总结经验,最后得出属于自己的论文模板,形成自己的论文写作体系,并且在查找的论文必须是顶刊顶会的,比如AI、TPAMI、AAAI等;第二种方法就是根据别人总结的模板来写论文,在使用模板的过程中根据自己的情况调整。
(5)where:论文的写作不拘泥于一个地方,当你有想法的时候,可以在任何地方,只有你能写。
2.论文写作
2.1论文写作工具
latex是一种科研人员必备的论文写作工具,无论是写公式还是搞缩进搞排版,都是苦不堪言。而使用latex,则只需要用对应的模板,改动很少,排版非常方便,就能得到一个满意的效果。
而每种期刊都会提供一个或多个格式文件. Latex 源文件只需要进行少量改变,就可以获得完全不同的版面。
使用模板注意事项:
(1)使用 usepackage导入包。
(2)尽量不要引入特殊的包, 以免在其它系统 (特别是期刊投稿网站上) 上运行不出来。
(3)使用\newtheorem 增加一些自动编号项。
2.2英语写作注意事项
2.2.1 慎用的单词与短语
(1)基本原则是未出现在任何学术论文在的单词不可以使用。在正式论文中几个单词的缩写也是有严格要求的,比如在正式论文中Have’t 与 Don’t,应使用 have not, do not, cannot 之类。仅当 authors’ 之类的情况,才使用撇号。
(2)一些单词的滥用比如and,and这个单词禁止在句子的开头使用,它出现在句子的开头没有任何意义,反而给人一种不连贯的感觉;在句子之中也要尽量少使用and,and表示的两者的语义并列,但是初学者很难分辨清两者之间是否存在并列关系,而且因为相邻的句子本身就有相关性,没必要去使用它。
(3)一些不够严谨的单词也不能使用,比如easy、simple、solve、prove等,学术论文提出的是一种新的方法或者思路,肯定具有一定的难度,不能用easy、simple等词语来形容,如果一个东西简单,大家也没有研究它的必要;solve的意思是解决,这个单词的分量太重了,我们这个阶段或者涉及的领域比如机器学习、安全、图像识别等还不能解决某个问题,只是提出了一种改进方案、新思路,所以应该用handle 或 address,只有我们彻底解决某个数学难题, 写出了相应的定理与证明, 才能说 solve;实验结果只能表明 (show) 而不能证明 (prove) 某个规律, 如你的结果比别人的好. 仅当你写了定理、性质及其证明过程, 才能说 prove。
(4)其它注意:使用 https://www.linggle.com 查看单词或词汇的使用频率. 例如: related work 有 415,960 次匹配, 而 related works 只有 46,757 次, 一般情况写成前者.
2.2.2 小心低级错误
(1)大小写
大小写也能出很多错误, 这个事情始料未及, 比较容易出的是参考文献作者的姓名那里, 应该是首字母大写。a 与 an 搞错的也不少。
(2)空格
标点符号后面缺少空格;标点符号前面多了空格;小括号前少了空格;参考文献引用的方括号前少了空格;连续几篇文献的引用之间多了空格。
(3)全角符号
Latex 中不应该出现全角符号,除非你真的需要在论文中出现中文。出现全角符号后。基础的 WinEdit 无法打开它,即使你把符号拷贝进去,保存文件时也会提醒你有 Unicode。
(4)数学符号
符号应规范,且保持同一篇论文中的一致性。
(5)数学式子涉及的标点符号
如果一个数学表达式是一个句子的结束,应在末尾打个句点。
(6)标签
为方便交叉引用,每个小节、图、表、参考文献都应有个标签,且命名时要遵循相应的规范。
(7)句子
长句:学术论文的主要功能是进行读者与作者之间的交流,句子太长影响阅读。
不完整的句子:基本语法不正确的句子。 放在翻译软件上倒腾一下就能检查出问题。单复数使用错误的句子。同上,使用翻译软件。
同一词组在同一句子中重复出现:这也是要避免的,可以去找找同义词组进行替换。
(8)文字格式
强调文字使用 \emph, 如果使用 $ 符号括起来就错了。后者有更大的间距,很容易看出。
(9)宽度
表格宽度:
如果是单栏排版, 所有表格应等宽, 且与文字边距一致,方法参见表格相关章节。
如果是双栏排版, 也应与当前文字边距一致。
数学表达式宽度,不应超出文字宽度。 这里既包括编号的数学表达式的, 也包括在文字中间未编号的表达式。
(10)图片
矢量图:未使用矢量图视为错误. 放大后看起来是马赛克。
流程图:未按标准画的流程图视为错误。
2.2.3 彻底解决英语句子语法问题
样将好的中文变为好的英文
写出一个好句子有两个办法:借鉴法和倒腾法。
(1)借鉴法:找 20 篇顶刊的论文. 一般不用顶会的论文, 有的作者急于投稿, 没来得及打磨,然后找出各个部分的简单句子, 如: The main idea is to estimate the total energy consumption by summing the energy contributions of each instruction.获得句型, 如: The main idea is to … by …,最后在自己的论文中使用。
(2)倒腾法:首先需要写一个表达清楚自己意思的英文句子,然后使用 https://translate.google.cn/ 翻译成中文句子,再翻译成英文句子,直到中文句子和英文句子都不再改变 (即收敛)最后将句子中的非专业词汇换成正确的专业词汇。
(3)注意事项:在使用借鉴法的时候需要注意应按句子出现的位置 (摘要、实验) 来分别总结, 它们有不同的时态和味道;复杂的句式 (带多个从句) 不要学,最好一个从句都没有,主谓宾最开心;再使用倒腾法时最好从英语句子开始, 而不是中文句子. 否则更难收敛;如果收敛后的句子与开始的句子相差太大, 而且并不能表达你的意思, 就需要根据前者来修改后者。
(4)两种方法都有各自的优缺点:借鉴法的优点在于模仿或者使用的语句基本上不会有什么错误,都是在别人的基础上产生的,越写越有经验,对于英文的写作也更加自信;缺点在于前期需要大量阅读文献并且提取需要的句子,有一个积累的过程,这一阶段比较痛苦,但坚持下来就轻松了。倒腾法的优点是按照自己的想法写更容易找出一些潜在的问题,也不用积累太多的句子;缺点是我们的中文表达不清楚,英文的表达也更加不清楚了。
2.2.4 符号与数学表达式
首先如果公式过多,需要总结一个符号表,但是这里面也有很多需要注意的地方:
(1)不要对式子、符号进行额外的、特殊的处理,包括强行增加空格、花括号等。
(2)数学表达式的处理是 Latex 相较于 Word 非常重要的优势. 严禁先用 Word 里面的公式编辑器写数学式子,再转到 Latex。
(3)一般的变量 (标量为) 斜体的,而常数和运算符是正体。在 Latex 中你不用考虑那么多,直接用 $ 符号将它们括起来就行了。
(4)不同字体的同一个字母表示不同的涵义。
(5)集合、数组、向量应使用粗体。
(6)如果在文字中的数学表达式太长,就可以超过页面右边界。为此,应将它进行切分。
(7)数学式子是句子的一部分, 因此它们应该有相应的逗号、分号、句号. 如果使用逗号,后面的 where 应该顶格写,以表示在同一行。还应以小写开头,表示是句子的后面部分。以下是几个常见的例子,特别注意符号与大小写。
(8)数学式子里面的文字应该用 \mathrm{otherwise} 这种方式括起来。
(9)如果需要与内容匹配的括号,可以用 \left(, \left[ 之类。
2.3吸引人的题目的重要性
题目对于论文来说至关重要,如果说论文是孩子, 那么题目就是他的名字。
注意事项:
(1)必须有吸引力
不炫的论文题目审稿人看了没兴趣, 不炫的博客题目阅读量肯定不高.
对于计算机方面论文而言, 应该写出自己提出的新问题或新方法. 新问题应该有意义而且有挑战性, 新方法则应该高效或准确.
(2)必须易于理解
术语和其它词汇应该在该领域内常用, 不应该要求读者借助词典才能理解.
应该易于检索
(3)流行的术语有助于被别人搜索到, 也能帮助提高论文的被引频次. 对于一个学者而言, 论文引用次数比论文数量更重要.
长度最好控制在 40-60 个字母之间
(4)越短表示创新性越高, 如rough sets, fuzzy sets 等等. 如果你敢写这么短的题目而且能被录用, 也不需要从本贴学到任何东西了.
越长表示限定越多, 适用范围越窄, 创新性越低, 读者也就没啥兴趣了.
(4)尽量不使用 based on
如果这样写, 读者会觉得该论文只是已有方法一个简单的扩展, 或者简单的应用. 有些中文期刊明确要求论文题目不要使用 “基于”, 因为这种题目泛滥.
(5)使用 through, with 等来表示技术
如果主要贡献为算法, 题目的缩写就应该为算法的名称
2.4论文各部分内容要求
2.4.1摘要
摘要就是把论文重要的内容摘录出来;从英文的角度, Abstract 就是把重要的内容抽取出来。它通常包括三个部分:已有工作的评述,本文工作的描述,实验结果。有些期刊明确要求按照 Background, contribution, experiments 三个方面描述。
而对于摘要的逐句分析:
(1)问题及其重要性
本句可以说明问题所属的领域,解释最重要的概念,或者强调问题的重要性。
反例:Attribute reduction is an important issue in data mining.
分析:只会说 important,干巴巴的. 而且 important 没有任何特色,任何论文都可以说自己的问题 importan。
正例: Recommender systems guide their users in decisions related to personal opinions about items.
分析:针对性强,有营养。
(2)已有工作
本句可以描述该问题的流行解决方案,如果说我们做研究是“站在巨人的肩膀上”,本句就描述巨人长什么样子。
(3)已有工作局限性
本句以 However 开头,需要注意:
指责不要太强烈,要尊重别人的劳动;
本句干的事情是挖坑,要保证自己的方法能把坑填上;
实在不行也可以不写本句,但这样显得没有底气。
(4)本文工作
以 In this paper 开始;是题目的扩展;出现算法的缩写;可以超过 20 个单词, 这也是全文唯一可以超过 20 个单词的句子。
(5)本文方法的第 1 个技术/步骤/方面/优势/贡献
(6)本文方法的第 2 个技术/步骤/方面/优势/贡献
(7)本文方法的第 3 个技术/步骤/方面/优势/贡献
如果不能扯出 3 个方面,论文的工作量就显得不够。
(8)实验设置
给出数据的领域、来源、数量。
(9)实验结果
提高了准确性、效率等等。
(10)提升
吹嘘一下论文的意义: 为该领域打开一扇门之类。
2.4.2 关键词
关键词源于英文“keyword”,特指单个论文作者在制作使用索引时,所用到的词汇,关键词是论文索引主要方法之一。首先关键词一般需要3-5个,一个关键词一般有1-3个单词,关键词不能太长,太长容易影响读者的阅读,而且关键词的作用是摘要的一种补充,不宜太多;关键词的排序应该按字母排序。有些期刊有特定的关键词列表,需要从其中选择,作者也可以添加自己的关键词。
2.4.3 引言
引言的本意是为论文作一些铺垫,然而,在计算机英文论文中,Introduction 需要讲述完整的故事。近年来,一些好的中文杂志也逐渐采用了这个风格。
.引言的写作要求:
(1)它应该对整篇论文进行详细的描述。
(2)最八股的方式, 就是采用与摘要相同的节奏。
(3)每段应有 5–10 句。这样,该段就有 50-150 个单词。如果相邻两段都太短, 应把它们合并到一起. 如果某段太长, 就应该拆分, 或者直接减少文字. 太短的段落导致零零碎碎的感觉, 太长的段落则让人读起来累。
(4)有些期刊和会议还喜欢让作者把自己的贡献单独列出来, 放在实验陈述段落之后。这个与论文的 Highlights 是同一个意思。
(5)期刊论文要求写论文的组织结构。引言的最后一段以 The rest of the paper is organized as follows。开头即可。也不需要玩什么花样, 按部就班陈述即可。
2.4.3 算法伪代码
算法伪代码是论文的核心之一。
算法伪代码要求如下:
(1)需要说明输入,输出;
(2)方法 (函数) 名可写可不写,如果被别的方法调用就必须写;
(3)需要写出主要步骤的注释;
(4)长度控制在15-30 行;
(5)可使用数学式子或对已有数学式子的引用;
(6)不重要的步骤可以省略;
(7)一般需要进行时间、空间复杂度分析,并写出配套的 property 以及相应的表格,以使其更标准。
2.4.4 实验
对于计算机专业的学生而言,许多机器学习论文中的实验部分就占整个篇幅的多半,所以在实验部分应该特别关注,以下是我也罗列了一些该部分的注意事项:
数据集信息:
(1)数据集越多,覆盖领域越广,结果就越可信。
(2)在多数情况下, 12 至 20 个公开数据集就足够了,然而,对于一些领域和问题而言,数据集却非常珍贵。可以使用人造数据集,或者数据集随机采样成多个,来缓解该问题。
(3)数据集大些更好,如果是结构化数据,有10^4个样本和 100 个属性就比较好。
(4)获取自己主要参考文献中的数据,有利于进行比较。
(5)要么获得对比算法的源码,要么实现它们。由于使用平台不同,数据采样不同,有时候你重现别人的实验,会发现结果不大一致,如果没有特别的原因,就使用自己实现的版本。
(6)同一结果不应该在图和表中同时出现。
自问自答模式
实验的主要目的是回答一些作者和读者关心的问题。因此,我采用自问自答的方式,在实验之前提出这些问题,在实验结果列出之后逐个回答它们。
内部比较
内部比较的动机包括:
(1)展示参数变化所导致的性能变化。
二维图一次只能展示一个参数和一个性能指标,因此,如果有很多参数,就只能讨论最重要的几个,否则图太多。
(2)展示主要方案与其变种相比的优势。
有时候我们有好几种可选方案,通过比较,可以获得最佳那个。
外部比较
外部比较即与已有算法进行对比。
(1)需要比较经典方案,基准方案,最先进的方案。
(2)很多时候使用柱状图。
(3)如果数据太多,用表格就比图合适。
(4)如果要把参数影响,数据集大小影响也表现出来,就只有用折线图。
(5)最重要的比较放在最后。
(6)要有足够的文字进行分析, 不能让读者自己去观察。
(7)并不需要在所有数据集上击败其它方案。
(8)在分析自己方案优势之余,也应该分析它的劣势,否则审稿人不干。
2.4.5 结论
作为人们的阅读习惯,最后一部分总是要看的。通常审稿人和读者都会逐句阅读本部分。
(1)常言道:虎头豹尾。结论一般不要太长,5 句就够了。如果想讨论的内容比较多,应该在本节之前加入一个单独的Discussions 。
(2)避免使用与摘要内相同的句子。摘要里面说我们做了哪些事情,而这里应该说我们获得哪些观察与结论。也就是说,结论比摘要更加具体,可以具体到论文中的某个算法,某条性质,某个定理,某个实验结果,这样就自然与摘要区别开来。
(3)如果要讨论说进一步工作,可以列出 3 至 5 条,不算在 Conclusion 的字数里面。读者很可能非常关注这一部分,因为他们可以按照这种思路继续进行研究。作为一项研究工作,打开一扇门比完全解决某一问题更重要。如果这一部分写得好, 就会有很多的引用,引用数量也比论文发表数量更重要。
2.4.6 参考文献
Latex 提供了 bib 文件进行参考文献的管理,极大地减轻了作者的负担。尽管如此,也有一些我们要注意的。
(1)千万不要直接使用网上的 bibitem.正确的做法是:使用一个正确的模板,然后把文献的内容填进去。这样可以避免多数问题。
(2)将等号进行列对齐
(3)名字要有意义。如 MinZhang2020Frequent 包含了前两个作者姓氏,论文发表年份,标题中的一个关键词。
(4)名在前,姓在后。
(5)作者名不要缩写成 “F Min” 或 “Fan Min”.Latex 自己会进行必要的转换。
(6)注意题目的大小写, 可以用花括号强制设置.
(7)期刊的名字按照正常方式写即可。
(8)会议名如果使用简称,就不要再写全称.
(9)由于有 year 域,不要在会议后面再加年份,如 AAAI’20,这样导致年份信息重复。
(10)页码之间应使用两个连词符 -,最终的效果就是一条比较长的横线。
(11)特殊字符需要使用转义符才能正常显示。
(12)千万不要把特殊字符拷贝进 bib 文件。bib 文件和 tex 文件都应该只含基本的 ASCII 字符。
(13)除最后一行外,其它行应以逗号结束。
(14)有些作者喜欢在名中间连词符,有些则喜欢独立。需要查阅他们自己的论文,了解相应习惯。
(15)为了保证格式的正确性,应检查生成的 pdf 文件。偶尔还会根据投稿期刊的要求来进行bibitem的修改。
2.4.7 图片与图片摘要
一幅图胜过千言万语,把图画漂亮是硕士毕业的必要条件。
注意事项:
(1)尽可能使用矢量图,这样在放大的时候就不会失真。除画图这种低级工具之外,visio,matlab,python 生成的图都可以存为矢量图。
(2)不要使用 Excel 画图,太丑了。
(3)图注可以相当长。有些期刊要求图片是自封闭 Self-enclosed的。即仅看图注的解释就够了,所以一些图注可以有三行或更长。
(4)围绕图的说明性文字应该比较长,它占的版面应不低于图片本身版面的 1/2。当然也可以是两倍。文字比较长,排版更容易。
(5)彩图很贵,应保证你的图片打印成黑白的仍然可以表达自己的意思。
(6)一般而言,引用图片时,应保持与图片编号的一致。
(7)有些期刊要求提供 Graphical abstract,即使用一张图 (含图注) 把论文的主要思想介绍清楚。
2.4.8 表格
细节决定成败,对于表格,我们也应该花心思做好,达到论文标准。
注意事项:
(1)所有列都为左对齐,使用 0.0000 而不是 0 来保证对。
(2)粗体指示最好的效果,斜体指示次好的效果。
(3)数据集应按照某种方式排序,如对象数、属性数、来源领域等,并保持所有表格中的顺序一致。
(4)大于1000的数据应该用逗号隔开,如 1,024。
(5)作为良好的习惯,源码里面也应该对齐,而不要因为不影响最终 pdf 效果而偷懒。
(6)表格一般应该与文字边距相同。
2.5 其他
2.5.1 审稿意见
稿件投到期刊,如果编辑让你修改,多半就有戏了。在修改论文的同时,需要准备一个 point-to-point 的回复。
注意事项:
(1)思想上务必要端正态度,编辑和审稿人花大量时间义务审稿不是想为难你,而是来帮助你改进论文质量。
(2)问题应该直接回答,而不要顾左右而言他。
(3)回复不要太长,正文中进行相应的修改才是重点。审稿人更关注你正文修改得如何,毕竟它才是呈现给读者的内容。
(4)正文中修改部分应用蓝色字标出。
(5)审稿人的拼写错误要帮他纠正。
2.5.1 会议论文与期刊论文的区别
论文被会议录用后,适当增加一定 的新材料,可以再投到期刊。以下为会议论文与期刊论文的区别L:
(1)会议论文均有篇幅要求,一般比期刊论文篇幅要短。
(2)没有章节组织描述,即 Introduction 中 The rest of the paper is organized as follows这一段。
(3)相关工作描述比较少。
(4)可能没有 Related work 一节。参考文献都在 Introduction 中综述。
(5)实验比较少。
(6)列出主要的实验,可能没有消融实验。
(7)不讨论 future work。
(8)参考文献较少20 篇左右. 而期刊很可能是 50 篇。
结束语
闵帆老师上课还是挺有趣的,课程也结束了,祝大家论文发发发!