《论文写作》课程总结
前言
本文是我对《论文写作》课程的一个学习总结. 在上这门课程前我已经过接触学术论文写作, 我认为这门课对我的最大作用就是将我以前从视频、博客、写作、经验贴等地方学习到的写作经验系统地串了起来.
文章目录
概述
在《论文写作》的第一课, 老师用 4W1H 给我们介绍了学术论文的相关知识.
-
学术论文是什么 (what)
对研究工作的阶段性总结; 单篇论文的内容不需要太多, 创新点一两个就够. 如果有一系列工作, 就写一系列论文; 科研八股文; 每个部分内容有固有的要求. 方便读者找到自己需要的内容. 论文不需要文采, 只需要正确的内容放在正确的位置.
结构清晰的表格. -
为什么写学术论文 (why)
达到毕业条件. -
如何写学术论文 (how)
读文献, 总结模板, 在自己的模板上写; 计算机方面, 需要查阅顶刊如 Science, Artificial Intelligence (AI), IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 顶会如 the Association for the Advance of Artificial Intelligence (AAAI) 50 篇以上的论文. 顶刊顶会的期刊和会议有哪些可以参考中科院给出的分区表或者 CCF 协会给出的期刊分类表. -
什么时候写学术论文 (when)
越早越好, 可以是本科阶段; 研一下学期还不动手, 研究生就很难毕业; 与实验并行. -
在哪里写学术论文 (where)
everywhere.
上面提到, 学术论文是对自己一个阶段的工作的总结, 从本质上来看, 我们不能为了写论文而写论文, 但是学术论文又和很多东西挂钩, 所以绝大多数时候我们不得不违背本心, 为了写论文而写论文.
学术论文从提出 idea 到投稿需要经历非常多的阶段, 接下来我会结合这门课从提出 idea 到投稿这一条线讲一讲我的经验.
Idea
Idea 的来源多种多样, 有的人从顶刊顶会的论文中找到, 有的人从导师那里得到, 有的人自己创造性的提出. 但是判断一个 idea 能不能写成论文并发表就非常需要经验, 需要考虑到 idea 的新意度、实用度、可行性等因素. Novelty in Science 这篇文章就从 reviewer 的角度讲了关于 idea 新意度的内容.
写作工具
LaTeX
LaTeX 是计算机方向发表英文刊物必不可少的排版工具, 其安装方法在网上有很多, 教程也非常丰富, LaTeX Note 是我在学习 LaTeX 的过程中的一些笔记.
Visual Studio Code
我觉得 LaTeX 自带的编辑器并不好用, 我一般是在 VSCode 上写 LaTeX, VSCode 配置 LaTeX 环境的方法同样也能在网上找到.
GitHub
身为一名计科的学生, 我认为 Git 之类的版本控制工具是我们必须掌握的工具之一, 在写论文的过程中, 我一般使用 GitHub + 百度网盘的方式对 LaTeX 文件和代码进行版本控制.
题目 Title
题目是读者对一篇论文的第一印象.
论文的题目需要注意以下几点:
- 必须有吸引力
不炫的论文题目审稿人看了没兴趣, 不炫的博客题目阅读量肯定不高.
对于计算机方面论文而言, 应该写出自己提出的新问题或新方法. 新问题应该有意义而且有挑战性, 新方法则应该高效或准确. - 必须易于理解
术语和其它词汇应该在该领域内常用, 不应该要求读者借助词典才能理解. - 应该易于检索
流行的术语有助于被别人搜索到, 也能帮助提高论文的被引频次. 对于一个学者而言, 论文引用次数比论文数量更重要. - 长度最好控制在 40-60 个字母之间
越短表示创新性越高; 越长表示限定越多, 适用范围越窄, 创新性越低, 读者也就没啥兴趣了. - 尽量不使用 based on
如果这样写, 读者会觉得该论文只是已有方法一个简单的扩展, 或者简单的应用. 有些中文期刊明确要求论文题目不要使用 “基于”, 因为这种题目泛滥. - 使用 through, with 等来表示技术
- 如果主要贡献为算法, 题目的缩写就应该为算法的名称
当然, 如果你对自己的实力自信, 也可以去一些比较独特的题目以让读者更容易记住你的论文, 比如我印象最深的一篇论文: 《Attention Is All You Need》.
摘要 Abstract
Abstract 就是把论文中重要的内容摘取出来. 它通常包括三个部分: 对已有工作的评述、对本文工作的描述以及实验结果.
模板1:
- 问题及其重要性
本句可以说明问题所属的领域, 解释最重要的概念, 或者强调问题的重要性.
– 反例: Attribute reduction is an important issue in data mining.
分析: 只会说 important, 干巴巴的. 而且 important 没有任何特色, 任何论文都可以说自己的问题 important.
– 正例: Recommender systems guide their users in decisions related to personal opinions about items.
分析: 针对性强, 有营养. - 已有工作
本句可以描述该问题的流行解决方案. 如果说我们做研究是 “站在巨人的肩膀上”, 本句就描述巨人长什么样子. - 已有工作局限性
本句以 However 开头, 需要注意
– 指责不要太强烈, 要尊重别人的劳动;
– 本句干的事情是挖坑, 要保证自己的方法能把坑填上;
– 实在不行也可以不写本句, 但这样显得没有底气. - 本文工作
– 以 In this paper 开始
– 是题目的扩展
– 出现算法的缩写
– 可以超过 20 个单词, 这也是全文唯一可以超过 20 个单词的句子 - 本文方法的第 1 个技术/步骤/方面/优势/贡献
- 本文方法的第 2 个技术/步骤/方面/优势/贡献
- 本文方法的第 3 个技术/步骤/方面/优势/贡献
如果不能扯出 3 个方面, 论文的工作量就显得不够 - 实验设置
给出数据的领域、来源、数量. - 实验结果
提高了准确性、效率等等. - 提升
吹嘘一下论文的意义: 为该领域打开一扇门之类
模板2:
菜鸟版本. 很八股, 但是不会翻车.
- 第一句: 背景
考虑只写主谓宾. 切忌不可以写 “在机器学习和数据挖掘中” 这种毫无营养凑字数的句子. - 第二句: 研究主题的现状
现状: 当前用什么方法去解决了什么问题. - 第三句: 用 However, 指出 “现状” 中还存在的问题或者尚未考虑的问题
例如: However, they have not considered ___. - 第四句: 用 “In this paper, we propose” 表达本文可以解决第三句中提出的问题
- 第五句-第七句: 用 First, Then, Finally, 陈述自己解决问题的步骤.
- 第八句: 陈述实验效果
啰嗦写法: Experimental results indicate that compared with the existing matrix factorization algorithm, the proposed algorithm is superior in multiple evaluation indicators, such as MAE, RMSE, and Recall. (such as 也可以用 in terms of 代替)
简短写法: 实验结果表明我们的算法占优.
引言 Introduction
在计算机英文论文中, Introduction 需要讲述完整的故事.
- 引言应该对整个故事进行详细的描述. 如果说摘要是电影 5 分钟宣传片的话, 引言就应该是整个的剧本. 很多审稿人在读完引言后, 就有了基本 (80% 以上) 的判断. 如果引言写得漂亮, 他就会在后面的正文中找出一些证据, 赞扬研究工作有意义, 理论完备, 实验效果好等等. 如果引言写得难看, 感觉作者没受过专业的科研训练, 他也会在正文中找出几条问题, 说论文写得不好. 因此, 如果你把自己的重要内容藏着掖着, 不在引言中展现出来, 就没人会去花时间发现它们.
- 最八股的方式, 就是采用与摘要相同的节奏. 摘要的每一句, 都扩展成引言中的一段. 每段的首句被称为"主题句", 你也可以把摘要相应那个句子稍作修改移过来. 主题句通常是一种"断言", 该段其它句子的作用, 都是支撑该断言.
- 每段应有 5–10 句. 这样, 该段就有 50-150 个单词. 如果相邻两段都太短, 应把它们合并到一起. 如果某段太长, 就应该拆分, 或者直接减少文字. 太短的段落导致零零碎碎的感觉, 太长的段落则让人读起来累.
- 计算机领域流行在引言里面放 “开局一张图”. 如果采用这种风格, In this paper 之后就应该围绕该图进行解释. “一幅图胜过千言万语”, 该图可以帮助读者花最少的时间理解论文的主要内容. 该图可以展现核心技术、算法框架、小的运行实例、效果对比等等.
- 有些期刊和会议还喜欢让作者把自己的贡献单独列出来, 放在实验陈述段落之后. 这个与论文的 Highlights 是同一个意思. 如果要列举的话, 就需要和前面的段落有所区别. 比如, 前面的几段写的是论文方法的几个步骤, 而这里描述几点贡献. 贡献写两三点就行, 多了也起不了强调的作用.
总之, 写学术论文, 一定不要花里胡哨, 应该既八股, 又有逻辑.
综述 Related work
绝大多数的参考文献应在文献综述中引用.
- 每篇论文都应有文献综述
表示对前人工作的尊重, 我们是站在巨人的肩头上; 当读者不清楚某些技术的细节时便于查阅. - 可以在不同的地方描述
Introduction: 一般描述得比较简略;
Related work: 描述得比较详细;
实验之后: 不想破坏自己论文的完整性, 特别是有 Preliminaries 一节时, 可考虑放到这里.
在引言中的描述与第 2 节中的描述不要简单的重复. 换言之, Introduction 和 Related work 应该统一布局, 而不能相互打架. - 文献需要进行分门别类的介绍
便于读者理解你这项工作的位置. 例: 主动学习有两个流派: 基于不确定性与基于代表性, 本文工作为后者. 有时会大类套小类, 逐步细化. 这样的综述才有目的、有营养. - 参考文献的引用一般仅仅是一种附属品
先写一个完整的句子, 再把参考文献的引用加上去. 例: Uncertainty sampling approaches [1,2] construct a classifier to determine which labels should be queried. - 不应将参考文献的引用作为句子的主语、宾语等
这种情况下, 你就失去了自己的观点, 而以其它作者的观点为主: Min et. al [6] propose … Zhang et. al [7] augue that. 读者从你这个文献综述里面看不到有深度的 “综合论述”. 容易出现连续多个单词与相应文献句子相同, 查重也会有问题. 为了凑篇幅而综述, 肯定不靠谱. - 以年份为主线的综述也不值得提倡
还是堆砌的感觉 - 不要一次性引用太多文献
一次不要超过 3 篇, 否则又是堆砌的感觉. 如: Uncertainty sampling approaches [1,2,3,4,5], 让读者觉得你根本没有给每篇参考文献足够的尊重, 就好像给大家一个合照了事儿. 即使与这个位置相关的参考文献很多, 也应该想办法放在不同的位置. - 不提倡全句引用
如果实在要引用, 应在原句外面套上双引号, 否则就是学术不端. 如: Eintein pointed out that “xxx.” - 合理评述相关工作的优缺点
优点是你选择跟随性工作的原因. 缺点是你论文工作的动机. 在谈到优点时可以使劲夸, 但也不要用口语; 说到缺点时要中肯, 也要客气, 很可能文献作者也是你这篇论文的审稿人. - 可以综述自己前期的工作, 但一般控制在 2-3 篇论文
这样, 表明自己不是第一次做这个方向, 同时避免太多的自引. - 参考文献必须在正文中引用. LaTeX 不担心这个问题.
实验 Experiment
在计算机方向的论文中, 实验部分的占比应该在一半左右.
数据集
数据集一般选取顶刊顶会上的论文所使用的数据集, 以保证数据集的认可度和实验结果课可信度.
模型/算法比较
外部比较即与已有算法进行对比.
- 需要比较经典方案, 基准方案, 最先进的方案.
- 很多时候使用柱状图.
- 如果数据太多, 用表格就比图合适.
- 如果要把参数影响, 数据集大小影响也表现出来, 就只有用折线图.
- 最重要的比较放在最后.
- 要有足够的文字进行分析, 不能让读者自己去观察.
- 并不需要在所有数据集上击败其它方案.
- 在分析自己方案优势之余, 也应该分析它的劣势, 否则审稿人不干. 因为机器学习的基本规律就是 No free lunch, 即一个方案既然有优点, 就肯定有缺点. 既然有擅长的数据/指标, 也就有不擅长的数据/指标.
结论 Conclusion
有经验的读者通常会重点读论文的摘要、引言和总结, 选择性的读方法和实验部分.
- 常言道: 虎头豹尾. 结论一般不要太长, 5 句就够了. 如果想讨论的内容比较多, 应该在本节之前加入一个单独的 Discussions 小节.
- 避免使用与摘要内相同的句子. 摘要里面说我们做了哪些事情, 而这里应该说我们获得哪些观察与结论. 也就是说, 结论比摘要更加具体. 可以具体到论文中的某个算法, 某条性质, 某个定理, 某个实验结果, 这样就自然与摘要区别开来.
- 如果要讨论说进一步工作, 可以列出 3 至 5 条, 不算在 Conclusion 的字数里面. 读者很可能非常关注这一部分, 因为他们可以按照这种思路继续进行研究. 作为一项研究工作, 打开一扇门比完全解决某一问题更重要. 如果这一部分写得好, 就会有很多的引用. 引用数量也比论文发表数量更重要.
参考文献 Reference
LaTeX 提供的 .bib 文件可以极大的方便我们管理参考文献, 我们只需要按照以下模板写入参考文献的信息, 即可在正文部分正确的引用.
@ARTICLE{MinZhang2020Frequent,
author = {Fan Min and Zhi-Heng Zhang and Wen-Jie Zhai and Rong-Ping Shen},
title = {Frequent pattern discovery with tri-partition alphabets},
journal = {Information Sciences},
year = {2020},
volume = {507},
number = {1},
pages = {715--732},
doi = {10.1016/j.ins.2018.04.013}
}
@INPROCEEDINGS{MinCai2007Dynamic,
author = {Fan Min and Hong-Bin Cai and Qi-He Liu and Zhong-Jian Bai},
title = {Dynamic discretization: a combination approach},
booktitle = {ICMLC},
year = {2007},
pages = {3672--3677}
}
在写 .bib 文件的时候需要注意以下问题:
- 千万不要直接使用网上的 bibitem. 有些同学说: “我的 bibitem 是从网上直接拷贝的, 怎么会有错呢?” 这句话直接把我点爆. 正确的做法是: 使用一个正确的模板 (例如上面给这个), 然后把文献的内容填进去, 这样可以避免多数问题.
- 将等号进行列对齐. 这和我们写程序一样, 需要良好的习惯: 保证格式正确. 否则会隐藏一些错误. 实际上, LaTeX 文件就是程序.
- 名字要有意义. 如 MinZhang2020Frequent 包含了前两个作者姓氏、论文发表年份、标题中的一个关键词. 必须保证不同的参考文献具有不同的名字.
- 名在前, 姓在后. “Fan Min” 不要写成 “Min, Fan”, 虽然 LaTeX 也认这个, 但从统一风格的角度, 我不认.
- 作者名不要缩写成 “F Min” 或 “Fan Min”. LaTeX 自己会进行必要的转换.
- 注意题目的大小写, 可以用花括号强制设置. 如 “TACS: Three-way active learning through clustering selection” 应写为 “{TACS: T}hree-way active learning through clustering selection”, 否则 LaTeX 很可能给你转换成 “Tacs: three …”. 同时注意不要使用 “{TACS: T}hree-way {A}ctive {L}earning through {C}lustering {S}election” 这种过度的控制, 模板会进行大小写控制的.
- 期刊的名字按照正常方式写即可. 有时候编辑会把 Information Sciences 缩写为 Inf. Sci. 作者一般可以不管.
- 会议名如果使用简称, 就不要再写全称. 事实上, 级别高的会议, 大家都知道其简称. 级别低的会议最好别引用.
- 由于有 year 域, 不要在会议后面再加年份, 如 AAAI’20, 这样导致年份信息重复.
- 页码之间应使用两个连词符 -, 最终的效果就是一条比较长的横线. 如果从其它地方直接拷贝, 有可能获得全角的横线.
- 特殊字符需要使用转义符才能正常显示. 如 IEEE Transactions on Knowledge & Data Engineering. 有些西欧字符, 也需要查阅 LaTeX 相应标准, 如 "{o} 表示上面有两个小点的 o.
- 千万不要把特殊字符 (包括全角的引号, 头上戴点的字母等等) 拷贝进 .bib 文件. bib 文件和 tex 文件都应该只含基本的 ASCII 字符.
- 除最后一行外, 其它行应以逗号结束.
- 有些作者喜欢在名中间连词符, 如 Heng-Ru Zhang, 有些则喜欢独立, 如 Yi Yu Yao. 需要查阅他们自己的论文, 了解相应习惯.
- 为了保证格式的正确性, 应检查生成的 pdf 文件. 偶尔还会根据投稿期刊的要求来进行 bibitem 的修改.
参考资料
[3] 论文写作 3: 慎用的单词与短语
[4] 论文写作 4: 彻底解决英文句子的语法问题 (好的中文 = 好的英文)
[7] 论文写作 7: 摘要 10 句
[8] 论文写作 8: 关键词的写法
[11] 论文写作 11: 理论部分全靠数学功底 (含实例)
[12] 论文写作 12: 算法伪代码 (含实例)
[13] 论文写作 13: 实验部分是重头戏
[14] 论文写作 14: 结论不要太啰嗦, 但进一步工作可以
[15] 论文写作 15: 参考文献部分隐藏的错误数量超过你的想像
[16] 写作——如何写摘要