本文是对于闵帆老师的《论文写作》课程的课程总结。
目录
前言
什么是学术论文:
学位论文是对科研工作的阶段性总结;被称作科研八股文,其每个部分内容有固有的要求;结构清晰的表格。
单篇论文的内容不需要太多, 创新点一两个就够. 如果有一系列工作, 就写一系列论文. 但不应该强行灌水。
为什么要写学术论文:
1.为了达到毕业条件。
2.为了评职称。
3.知识宣传与学术宣传。
什么时候写学术论文:
越早越好,最好是本科阶段,如果研一下学期还不开始写,研究生将很难毕业;在做实验的前后开始写。
如何写学术论文:
1.读文献, 总结模板, 在自己的模板上写。
2.使用别人总结的模板写 。
使用什么样的工具:
Latex
写英语论文应注意的问题:
一般而言, 未出现在任何学术论文中的单词, 不可以使用:
- 尽量不要简写,如Have’t 与 Don’t,在正式论文中,一般不这样写。
- 禁止在句子的开头用 And。
- 禁用的单词:Easy。
- 慎用单词:Simple,Solve,Novel,Only,Prove。
如何彻底解决英文句子的语法问题:
1. 借鉴法:找 20 篇顶刊的论文,找出各个部分的简单句子,获得句型,在自己的论文中使用。
2. 倒腾法:写一个表达自己意思的英文句子,使用 https://translate.google.cn/ 翻译成中文句子.再翻译成英文句子.直到中文句子和英文句子都不再改变 (即收敛).将句子中的非专业词汇换成正确的专业词汇. 这是因为翻译软件对它们不了解.
如何给自己的论文一个中肯而闪亮的题目:
- 必须有吸引力
不炫的论文题目审稿人看了没兴趣, 不炫的博客题目阅读量肯定不高.
对于计算机方面论文而言, 应该写出自己提出的新问题或新方法. 新问题应该有意义而且有挑战性, 新方法则应该高效或准确. - 必须易于理解
术语和其它词汇应该在该领域内常用, 不应该要求读者借助词典才能理解. -
应该易于检索
流行的术语有助于被别人搜索到, 也能帮助提高论文的被引频次. 对于一个学者而言, 论文引用次数比论文数量更重要.
- 长度最好控制在 40-60 个字母之间
越短表示创新性越高, 如rough sets, fuzzy sets 等等. 如果你敢写这么短的题目而且能被录用, 也不需要从本贴学到任何东西了.
越长表示限定越多, 适用范围越窄, 创新性越低, 读者也就没啥兴趣了. - 尽量不使用 based on
如果这样写, 读者会觉得该论文只是已有方法一个简单的扩展, 或者简单的应用. 有些中文期刊明确要求论文题目不要使用 “基于”, 因为这种题目泛滥. - 使用 through, with 等来表示技术.
- 如果主要贡献为算法, 题目的缩写就应该为算法的名称.
如何写一个好的摘要:
"摘要"就是把论文重要的内容摘录出来。它通常包括三个部分: 已有工作的评述, 本文工作的描述, 实验结果. 有些期刊明确要求按照 Background, contribution, experiments 三个方面描述.
- 问题及其重要性:本句可以说明问题所属的领域, 解释最重要的概念, 或者强调问题的重要性.
– 反例: Attribute reduction is an important issue in data mining.
分析: 只会说 important, 干巴巴的. 而且 important 没有任何特色, 任何论文都可以说自己的问题 important.
– 正例: Recommender systems guide their users in decisions related to personal opinions about items.
分析: 针对性强, 有营养. - 已有工作
本句可以描述该问题的流行解决方案. 如果说我们做研究是 “站在巨人的肩膀上”, 本句就描述巨人长什么样子. - 已有工作局限性
本句以 However 开头, 需要注意
– 指责不要太强烈, 要尊重别人的劳动;
– 本句干的事情是挖坑, 要保证自己的方法能把坑填上;
– 实在不行也可以不写本句, 但这样显得没有底气. - 本文工作
– 以 In this paper 开始
– 是题目的扩展
– 出现算法的缩写
– 可以超过 20 个单词, 这也是全文唯一可以超过 20 个单词的句子 - 本文方法的第 1 个技术/步骤/方面/优势/贡献
- 本文方法的第 2 个技术/步骤/方面/优势/贡献
- 本文方法的第 3 个技术/步骤/方面/优势/贡献
- 实验设置
给出数据的领域、来源、数量 - 实验结果
提高了准确性、效率等等. - 提升
吹嘘一下论文的意义: 为该领域打开一扇门之类
如何写好关键词:
关键词是用于检索论文的一种重要的方式.
- 关键词常被看作摘要的一种补充
- 一般需要 3–5 个关键词
- 关键词一般由 1–3 个单词构成
- 将关键词按照字母表排序
- 有些期刊支持两类关键词
- index term: 由期刊提供, 只能从投稿网站给定的列表选择
- keywords: 作者自己按需写
如何写好引言:
- 它应该对整个故事进行详细的描述. 如果说摘要是电影 5 分钟宣传片的话, 引言就应该是整个的剧本. 很多审稿人在读完引言后, 就有了基本 (80% 以上) 的判断. 如果引言写得漂亮, 他就会在后面的正文中找出一些证据, 赞扬研究工作有意义, 理论完备, 实验效果好等等. 如果引言写得难看, 感觉作者没受过专业的科研训练, 他也会在正文中找出几条问题, 说论文写得不好, 读者也通常会在阅读完引言后决定是否引用该论文. 因此, 如果把自己的重要内容藏着掖着, 不在引言中展现出来, 就没人会去花时间发现它们.
- 最八股的方式, 就是采用与摘要相同的节奏. 摘要的每一句, 都扩展成引言中的一段. 每段的首句被称为"主题句", 也可以把摘要相应那个句子稍作修改移过来. 主题句通常是一种"断言", 该段其它句子的作用, 都是支撑该断言.
- 每段应有 5–10 句. 这样, 该段就有 50-150 个单词. 如果相邻两段都太短, 应把它们合并到一起. 如果某段太长, 就应该拆分, 或者直接减少文字. 太短的段落导致零零碎碎的感觉, 太长的段落则让人读起来累.
- 计算机领域 (特别是顶会) 流行在引言里面放 “开局一张图”. 如果采用这种风格, In this paper 之后就应该围绕该图进行解释. “一幅图胜过千言万语”, 该图可以帮助读者花最少的时间理解论文的主要内容. 该图可以展现核心技术、算法框架、小的运行实例、效果对比等等. 这张图如果画好了, 可以加分; 画不好的话, 还不如不要.
- 有些期刊和会议还喜欢让作者把自己的贡献单独列出来, 放在实验陈述段落之后. 这个与论文的 Highlights 是同一个意思. 如果要列举的话, 就需要和前面的段落有所区别. 比如, 前面的几段写的是论文方法的几个步骤, 而这里描述几点贡献. 贡献写两三点就行, 多了也起不了强调的作用.
- 期刊论文要求写论文的组织结构. 引言的最后一段以 The rest of the paper is organized as follows. 开头即可. 也不需要玩什么花样, 按部就班陈述即可.
- 引言的层次
7.1 没有拼写、语法错误(单词级)
7.2 表达简洁、得体、有力量(句子级)
一个意思用尽可能短的句子描述。不需要太多的句式,少数的几个重复使用即可。
7.3 丰富(段落级)
同一事情从不同的角度分析,有一些常用的角度、招数
WWH: what, why, how
7.4 条理清晰,节奏明快(章节级)
主要是摘要10句及相应的节奏
7.5 创新
如何写好伪代码:
- 需要说明输入、输出;
- 方法 (函数) 名可写可不写, 如果被别的方法调用就必须写;
- 需要写出主要步骤的注释;
- 长度控制在 15-30 行;
- 可使用数学式子或对已有数学式子的引用;
- 不重要的步骤可以省略;
- 一般需要进行时间、空间复杂度分析, 并写出配套的 property 以及相应的表格, 以使其更标准.
实验部分:
关于数据集:
- 数据集越多, 覆盖领域越广, 结果就越可信. 从软件测试的角度也是如此.
在多数情况下, 12 至 20 个公开数据集就足够了. 然而, 对于一些领域和问题而言, 数据集却非常珍贵. 可以使用人造数据集, 或者数据集随机采样成多个, 来缓解该问题. - 数据集大些更好. 如果是结构化数据, 有
个样本和 100 个属性就比较好. 否则, 审稿人就会说你使用了玩具数据集.
- 获取自己主要参考文献中的数据, 有利于进行比较. 你甚至不需要把他们的方案实现. 在一些领域如图像和视觉, 会有一些专门的数据集供大家测试.
- 要么获得对比算法的源码, 要么实现它们. 由于使用平台不同, 数据采样不同, 有时候你重现别人的实验, 会发现结果不大一致. 如果没有特别的原因, 就使用自己实现的版本.
- 同一结果不应该在图和表中同时出现, 这样就重复了. 你只有选择更为合适的方式.
外部比较:
- 需要比较经典方案, 基准方案, 最先进的方案.
- 很多时候使用柱状图.
- 如果数据太多, 用表格就比图合适.
- 如果要把参数影响, 数据集大小影响也表现出来, 就只有用折线图.
- 最重要的比较放在最后.
- 要有足够的文字进行分析, 不能让读者自己去观察.
- 并不需要在所有数据集上击败其它方案.
- 在分析自己方案优势之余, 也应该分析它的劣势, 否则审稿人不干. 因为机器学习的基本规律就是 No free lunch, 即一个方案既然有优点, 就肯定有缺点. 既然有擅长的数据/指标, 也就有不擅长的数据/指标.
如何引用文献:
一篇论文大概可以引用多少篇文献,自己写的论文中可以有百分之多少的字引用别人的东西。
引用的文献最好是最原创的论文,和最新的论文,特别是自己对比算法的论文。
- 期刊论文30-50篇
- 会议论文15-30篇
- 综述性论文 100+
- 文字重复率不超过 30%
对于参考文献的相关性和代表性的要求:
- 相关性:比较算法必须要有,10篇。
- 代表性:综述的时候,每一类方法选择1-2篇,找期刊好、时间新、引用多。
- 每篇论文都应有文献综述
表示对前人工作的尊重, 我们是站在巨人的肩头上
当读者不清楚某些技术的细节时便于查阅 - 可以在不同的地方描述
引言中: 一般描述得比较简略
第 2 节专门的 Related work: 描述得比较详细
实验之后: 不想破坏自己论文的完整性, 特别是有 Preliminaries 一节时, 可考虑放到这里
在引言中的描述与第 2 节中的描述不要简单的重复. 换言之, Introduction 和 Related work 应该统一布局, 而不能相互打架 - 文献需要进行分门别类的介绍
便于读者理解你这项工作的位置. 例: 主动学习有两个流派: 基于不确定性与基于代表性, 本文工作为后者.
有时会大类套小类, 逐步细化
这样的综述才有目的、有营养 - 参考文献的引用一般仅仅是一种附属品
先写一个完整的句子, 再把参考文献的引用加上去. 例: Uncertainty sampling approaches [1,2] construct a classifier to determine which labels should be queried. - 不应将参考文献的引用作为句子的主语、宾语等
这种情况下, 你就失去了自己的观点, 而以其它作者的观点为主: Min et. al [6] propose … Zhang et. al [7] augue that
读者从你这个文献综述里面看不到有深度的“综合论述”
容易出现连续多个单词与相应文献句子相同, 查重也会有问题
为了凑篇幅而综述, 肯定不靠谱 - 以年份为主线的综述也不值得提倡
还是堆砌的感觉 - 不要一次性引用太多文献
一次不要超过 3 篇, 否则又是堆砌的感觉. 如: Uncertainty sampling approaches [1,2,3,4,5], 让读者觉得你根本没有给每篇参考文献足够的尊重, 就好像给大家一个合照了事儿
即使与这个位置相关的参考文献很多, 也应该想办法放在不同的位置 - 不提倡全句引用
如果实在要引用, 应在原句外面套上双引号, 否则就是学术不端. 如: Eintein pointed out that “xxx.” - 合理评述相关工作的优缺点
优点是你选择跟随性工作的原因
缺点是你论文工作的动机
在谈到优点时可以使劲夸, 但也不要用口语; 说到缺点时要中肯, 也要客气, 很可能文献作者也是你这篇论文的审稿人 - 可以综述自己前期的工作, 但一般控制在 2-3 篇论文. 这样, 表明自己不是第一次做这个方向, 同时避免太多的自引.
- 参考文献必须在正文中引用. Latex 不担心这个问题.
结论部分:
- 常言道: 虎头豹尾. 结论一般不要太长, 5 句就够了. 如果想讨论的内容比较多, 应该在本节之前加入一个单独的 Discussions 小节.
- 避免使用与摘要内相同的句子. 摘要里面说我们做了哪些事情, 而这里应该说我们获得哪些观察与结论. 也就是说, 结论比摘要更加具体. 可以具体到论文中的某个算法, 某条性质, 某个定理, 某个实验结果, 这样就自然与摘要区别开来.
- 如果要讨论说进一步工作, 可以列出 3 至 5 条, 不算在 Conclusion 的字数里面. 读者很可能非常关注这一部分, 因为他们可以按照这种思路继续进行研究. 作为一项研究工作, 打开一扇门比完全解决某一问题更重要. 如果这一部分写得好, 就会有很多的引用. 引用数量也比论文发表数量更重要.
使用Latex提供的 bib 文件进行参考文献的管理:
- 千万不要直接使用网上的 bibitem. 有些同学说: “我的 bibitem 是从网上直接拷贝的, 怎么会有错呢?” 这句话直接把我点爆. 正确的做法是: 使用一个正确的模板 (例如上面给这个), 然后把文献的内容填进去, 这样可以避免多数问题.
- 将等号进行列对齐. 这和我们写程序一样, 需要良好的习惯: 保证格式正确. 否则会隐藏一些错误. 实际上, Latex 文件就是程序.
- 名字要有意义. 如 MinZhang2020Frequent 包含了前两个作者姓氏、论文发表年份、标题中的一个关键词. 必须保证不同的参考文献具有不同的名字.
- 名在前, 姓在后. “Fan Min” 不要写成 “Min, Fan”, 虽然 Latex 也认这个, 但从统一风格的角度, 我不认.
- 作者名不要缩写成 “F Min” 或 “Fan Min”. Latex 自己会进行必要的转换.
- 注意题目的大小写, 可以用花括号强制设置. 如 “TACS: Three-way active learning through clustering selection” 应写为 “{TACS: T}hree-way active learning through clustering selection”, 否则 Latex 很可能给你转换成 “Tacs: three …”. 同时注意不要使用 “{TACS: T}hree-way {A}ctive {L}earning through {C}lustering {S}election” 这种过度的控制, 模板会进行大小写控制的.
- 期刊的名字按照正常方式写即可. 有时候编辑会把 Information Sciences 缩写为 Inf. Sci. 作者一般可以不管.
- 会议名如果使用简称, 就不要再写全称. 事实上, 级别高的会议, 大家都知道其简称. 级别低的会议最好别引用.
- 由于有 year 域, 不要在会议后面再加年份, 如 AAAI’20, 这样导致年份信息重复.
- 页码之间应使用两个连词符 -, 最终的效果就是一条比较长的横线. 如果从其它地方直接拷贝, 有可能获得全角的横线.
- 特殊字符需要使用转义符才能正常显示. 如 IEEE Transactions on Knowledge \& Data Engineering. 有些西欧字符, 也需要查阅 Latex 相应标准, 如 \"{o} 表示上面有两个小点的 o.
- 千万不要把特殊字符 (包括全角的引号, 头上戴点的字母等等) 拷贝进 bib 文件. bib 文件和 tex 文件都应该只含基本的 ASCII 字符.
- 除最后一行外, 其它行应以逗号结束.
- 有些作者喜欢在名中间连词符, 如 Heng-Ru Zhang, 有些则喜欢独立, 如 Yi Yu Yao. 需要查阅他们自己的论文, 了解相应习惯.
- 为了保证格式的正确性, 应检查生成的 pdf 文件. 偶尔还会根据投稿期刊的要求来进行 bibitem 的修改.
总结
在上本课以前,我一直以为只要想到一个好的idea,设计好算法,就一定能写好一篇论文,达到毕业条件。在上了这门课后,我才知道,论文的题目、摘要、引言、文献等部分的书写格式都有严格的要求,如果不按照这些要求来写,就算你的idea特别好,也有可能被拒。