【论文写作-学习记录】

这次课程是在闵帆老师的教导下进行,博客参考了闵帆老师的论文写作专栏:

http://t.csdnimg.cn/qDKkJ

第一课:学术论文的基本概念及常见的latex文件

1.基本概念

  • 学术论文是什么
    • 研究工作的阶段性总结,每篇论文的内容只需一两个创新点,不能强行灌水。
    • 科研八股文,每个部分内容有固有的要求,只需要正确的内容放在正确的位置。
    • 结构清晰的表格
  • 学术论文怎么写
    • 自己读文献, 总结模板。方法:查阅顶刊如Science, Artificial Intelligence (AI), IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 顶会如 the Association for the Advance of Artificial Intelligence (AAAI) 50 篇以上的论文。
    • 使用别人总结的模板。
  • 论文写作是日常
    • 写作时间:每一天,开始的越早越好。
    • 写作地点:可以用电脑的任意生活场景。

2.常见的Latex文件

  • 使用原则
    • 首选目标期刊已录用的源文件
    • 其次是目标期刊提供的模板文件
  • 常用文件
    • cls 文件:用于控制论文的总体格式,使用不同的格式文件时, .tex 源文件头部需要进行相应调整。
    • bst 文件:用于控制参考文献的格式
  • 小tips
    • 使用 usepackage导入包。
    • 尽量不要引入特殊的包, 以免在其它系统 (特别是期刊投稿网站上) 上运行不出来。
    • 使用 \newtheorem 增加一些自动编号项。
    • 使用BibTeX或BibLaTeX来管理参考文献,将引用信息保存在.bib文件中,并在文档中引用。
    • 使用\cite{}命令引用文献,然后在文档的末尾生成参考文献列表。
    • 使用\chapter{}和\section{}等命令来组织文档的结构。
    • 使用\label{}和\ref{}命令来创建交叉引用,方便引用文档中的章节和图表。

第二课:单词、短语的运用以及英文句子语法问题

1.单词及短语

  • 禁用的单词
    • Have’t 与 Don’t,在正式的论文中应使用 have not, do not, cannot这种形式,不能简写。
    • And,禁止在句子开头使用and,因为相邻的句子本身就有相关性,此时and没有实际意义。
    • Easy,禁用,简单的东西没有研究意义,相当于在否定自己的工作。
  • 慎用的单词
    • And,句子中间的and要慎用,除非有对仗工整的词组, 如: data mining and machine learning。
    • Simple,与 easy 有些相似,如果是表达 simple yet effective,可以偶尔使用。
    • Solve,只有彻底解决某个数学难题,写出了相应的定理与证明,才算solve。但机器学习一般无法解决某个问题,所以应该用 handle 或者address.
  • 需要注意的单词
    • novel,比较常用的单词是 new。我们写的每一篇论文,要么涉及 new 问题,要么涉及 new 方法,所以这个说法很正常。但 novel 表示比较大的创新,会提升审稿人对这篇论文的预期,如果实际上没有太特别的内容,就会被拒掉。如果投的是顶刊顶会,都不敢用 novel 的话,也会被审稿人小瞧,所应该根据自己工作的创新性来选择。
    • only,把 only 放到一个尽可能靠后的位置。如:使用 consider only uniform distribution 而不是 only consider uniform distribution. 前者表示目前仅仅考虑了均匀分布,对其它分布也有能力研究,只是暂时还没做而已。而后者有种你只敢考虑均匀分布,对其他的无能为力的感觉。
    • Prove,实验结果只能表明 (show) 而不能证明 (prove) 某个规律,即使实验结果比别人的好,也必须在写了定理、性质及其证明过程之后,才能说 prove。
    • 使用出现频率更高的单词或词汇,可以通过 https://www.linggle.com 查看单词的使用频率。
  • 其他
    • 避免双重否定,以确保句子的意思清晰。
    • 动词时态和语态:使用一致的动词时态和语态,以确保文章连贯性。在学术写作中,一般使用第三人称和被动语态,但要根据需要进行调整。
    • 介词和冠词:介词和冠词的选择和位置对句子的结构和意义非常重要。错误的使用可能导致句子含义不清晰。
    • 强调和修饰:使用强调词和修饰词时要小心,它们可能会夸大或模糊你的观点。在需要时使用这些词,但要谨慎选择它们的位置和频率。

2.句子语法

  • 借鉴法
    • 第一步,检索:找 20 篇自己方向的顶刊论文。看到合适的句子,统统摘抄下来,并且按照一定的方式进行组织。例如:句子基本结构,出现的介词,出现的位置。找出各个部分的简单句子, 如:
      The main idea is to estimate the total energy consumption by summing the energy contributions of each instruction.
      提取句型: The main idea is to … by …
    • 第二步,总结:按句子出现的位置 (摘要、实验) 来分别总结,它们有不同的时态和意味,不学复杂句式 (带多个从句),最好只有主谓宾。
    • 第三步,使用:根据具体需求从中选取合适的句型,写入自己的论文中,刚开始会比较慢,需要积累很多的句式,但越到后面越快,并且一般不会有基本的语法问题。
  • 注意事项
    • 使用一致的动词时态,尤其是在相邻句子和段落之间,以确保文章连贯性。
    • 在学术写作中,一般使用现在时来描述普遍真理和已知事实,使用过去时来报告过去的研究和实验结果。
    • 在引用他人的话语时,使用引号或缩进来将引用文本与你自己的文本区分开。
    • 引用需要使用适当的引号标点,如单引号或双引号,取决于你的风格。

第三课:符号、数学表达式以及论文题目

  • 符号使用事项
    • 不对式子、符号进行额外的、特殊的处理,包括强行增加空格、花括号等.
    • 禁止使用 Word 里面的公式编辑器写数学式子, 再转到 Latex. 否则容易出现第 1 项所描述的问题.
    • 一般的变量 (标量为) 斜体的, 而常数和运算符是正体. 在 Latex 中直接用 $ 符号将它们括起来就行。如 f ( x ) = x 2 + 1 f(x) = x^2 + 1 f(x)=x2+1 的源码为 $f(x) = x^2 + 1$.
    • 集合、数组、向量应使用粗体. 如 X \mathbf{X} X(源码$\mathbf{X}$) 或 X \bm{X} X (源码 $\bm{X}$). 矩阵转置使用 T \mathsf{T} T, 而不是 T \mathrm{T} T ⊤ \top .
    • 如果在文字中的数学表达式太长, 就可以超过页面右边界. 为此, 应将它进行切分. 例如 $K = {n_1, n_2, \dots, n_k}$ 可替换为 $K$ = {$n_1$, $n_2$, \dots, $n_k$}, 这样 Latex 就可以对它进行自动分行.
    • 数学式子是句子的一部分, 因此它们应该有相应的逗号、分号、句号. 如果使用逗号, 后面的 where 应该顶格写, 以表示在同一行. 还应以小写开头, 表示是句子的后面部分.
    • 数学式子里面的文字应该用 \mathrm{otherwise} 这种方式括起来.
    • 避免使用容易混淆的符号,如“l”和“1”、零和“O”等。
    • 使用清晰的分数线和分数形式,以避免混淆。
    • 区分变量和常数。通常,变量用字母表示,而常数用特殊符号表示。
    • 使用数学字体以区分不同类型的符号。
  • 论文题目
    • 具体明确
      标题应当准确地反映研究的范围和主题,避免使用模糊或泛泛的词汇。
    • 有吸引力
      对于计算机方面论文而言, 应该写出自己提出的新问题或新方法. 新问题应该有意义而且有挑战性, 新方法则应该高效或准确.
    • 易于理解
      术语和其它词汇应该在该领域内常用, 不应该要求读者借助词典才能理解.
    • 易于检索
      流行的术语有助于被别人搜索到, 也能帮助提高论文的被引频次. 对于一个学者而言, 论文引用次数比论文数量更重要.
    • 控制长度
      最好在 40-60 个字母之间,越短表示创新性越高,越长表示限定越多, 适用范围越窄, 创新性越低。
    • 尽量不使用 based on
      会让人觉得该论文只是已有方法一个简单的扩展, 或者简单的应用。
      简明扼要:标题应该是简明扼要的,概括你的研究领域和主题。通常,一个好的标题不应该超过15个词。
    • 不要使用缩写
      避免在标题中使用不常见的缩写或首字母缩写词,除非它们在领域内广泛认可。
    • 使用关键词
      考虑使用与你的研究领域和主题相关的关键词,以帮助搜索引擎和读者找到你的论文。

第四课:摘要和关键词

1.摘要的组成

通常包括三个部分:已有工作的评述, 本文工作的描述, 实验结果,或者 Background, contribution, experiments.

规范要求共10 句

  • 问题及其重要性:说明问题所属的领域, 解释最重要的概念, 或者强调问题的重要性.

  • 已有工作:描述该问题的流行解决方案. 如果说我们做研究是 “站在巨人的肩膀上”, 本句就描述巨人长什么样子.

  • 已有工作局限性
    本句以 However 开头, 需要注意
    – 指责不要太强烈, 要尊重别人的劳动;
    – 本句干的事情是挖坑, 要保证自己的方法能把坑填上;

  • 本文工作
    – 以 In this paper 开始
    – 是题目的扩展
    – 出现算法的缩写
    – 可以超过 20 个单词, 这也是全文唯一可以超过 20 个单词的句子

  • 本文方法的第 1 个技术/步骤/方面/优势/贡献

  • 本文方法的第 2 个技术/步骤/方面/优势/贡献

  • 本文方法的第 3 个技术/步骤/方面/优势/贡献
    如果少于 3 个方面, 论文工作量就显得不够。

  • 实验设置
    给出数据的领域、来源、数量.

  • 实验结果
    提高了准确性、效率等等.

  • 提升
    吹嘘一下论文的意义: 为该领域打开一扇门之类.

2.关键词的写法

  • 关键词常被看作摘要的一种补充
  • 一般需要 3-5 个关键词
  • 关键词一般由 1-3 个单词构成
  • 关键词需按照字母表排序
  • 有些期刊支持两类关键词
    • index term: 由期刊提供, 只能从投稿网站给定的列表选择
    • keywords: 作者自己按需写

第五课:引言和文献综述

1.如何写引言

  • 第一,在引言中要详细描述整个故事,并且把自己的重要内容展现出来,否则没人愿意接收或者引用。
  • 第二,内容编排上采用八股文的方式,即与摘要相同的节奏。摘要的每一句, 都扩展成引言中的一段. 每段的首句被称为"主题句", 主题句通常是一种"断言",该段其它句子的作用, 都是支撑该断言。
  • 第三,每段应有 5-10 句,大概 50-150 个单词。如果相邻两段都太短,应把它们合并到一起。如果某段太长,就应该拆分,或者直接减少文字。
  • 第四,使用 “开局一张图”。在In this paper 之后就围绕该图进行解释。该图可以帮助读者花最少的时间理解论文的主要内容,并可以展现核心技术、算法框架、小的运行实例、效果对比等等。
  • 第五,引言的最后一段以 The rest of the paper is organized as follows. 开头,按部就班陈述即可。
  • 第六,引言的层次
    • 单词层面:没有拼写、语法错误
    • 句子层面:表达简洁、得体、有力量
    • 段落层面:内容丰富,同一事情从不同的角度分析,有一些常用的角度:WWH(what, why, how)
    • 章节层面:条理清晰,节奏明快,主要按照摘要的10句依次展开

2.如何写文献综述

绝大多数的参考文献应在文献综述中引用.

  • 每篇论文都应有文献综述,表示对前人工作的尊重,当读者不清楚某些技术的细节时便于查阅。

  • 在不同的地方描述
    引言中: 比较简略
    Related work:比较详细
    实验之后: 不想破坏自己论文的完整性, 特别是有 Preliminaries 一节时, 可考虑放到这里
    在引言中的描述与第 2 节中的描述不要简单的重复。

  • 将文献进行分门别类的介绍,便于读者理解你这项工作的位置。例: 主动学习有两个流派: 基于不确定性与基于代表性, 本文工作为后者。

  • 参考文献的引用一般仅仅是一种附属品,先写一个完整的句子, 再把参考文献的引用加上去. 例: Uncertainty sampling approaches [1,2] construct a classifier to determine which labels should be queried.

  • 不应为了凑篇幅而综述,将参考文献的引用作为句子的主语、宾语,这样会失去自己的观点,而以其它作者的观点为主,容易出现连续多个单词与相应文献句子相同, 查重也会有问题。

  • 不提倡以年份为主线的综述,有堆砌的感觉。

  • 不要一次性引用太多文献,一次每次引用不超过 3 篇, 即使与这个位置相关的参考文献很多, 也应该想办法放在不同的位置。

  • 不提倡全句引用,如果实在要引用, 应在原句外面套上双引号, 否则就是学术不端.

  • 合理评述相关工作的优缺点,优点是我们选择跟随性工作的原因,缺点是我们论文工作的动机。在谈到优点时可以尽量多说好话,说到缺点时要中肯,也要客气。

  • 可以综述自己前期的工作,但一般控制在 2-3 篇论文,表明自己不是第一次做这个方向,同时避免太多的自引。

第六课:理论部分和算法伪代码

1.理论部分

  • 一般性的准则:理论完备,符号统一,概念清晰,重要结论称为定理 theorem, 定理前面打辅助的叫作引理 lemma, 定理后面的尾巴叫推论 corollary, 附属于算法的叫 property.
  • 基础是数学,必须加强数学知识的学习,如离散数学。

2.算法伪代码

算法伪代码是论文的核心之一.

  • 注意要点:

    • 说明输入、输出;
    • 方法 (函数) 名可写可不写, 如果被别的方法调用就必须写;
    • 写出主要步骤的注释;
    • 长度控制在 15-30 行;
    • 可使用数学式子或对已有数学式子的引用;
    • 不重要的步骤可省略;
    • 一般需要进行时间、空间复杂度分析, 并写出配套的 property 以及相应的表格, 以使其更标准.

第七课:实验和结论

1.实验怎么写

  • 数据集信息

    • 数据集越多, 覆盖领域越广, 结果就越可信.
    • 在多数情况下, 12 至 20 个公开数据集就足够了. 然而, 对于一些领域和问题而言, 数据集却非常珍贵. 可以使用人造数据集, 或者数据集随机采样成多个, 来缓解该问题.
    • 数据集大些更好. 如果是结构化数据, 有 1 0 4 10^4 104 个样本和 100 个属性就比较合适. 否则, 审稿人就会说你使用了玩具数据集.
    • 获取自己主要参考文献中的数据, 有利于进行比较.
    • 要么获得对比算法的源码, 要么实现它们. 由于使用平台不同, 数据采样不同, 有时候重现别人的实验, 会发现结果不一致. 如果没有特别的原因, 就使用自己实现的版本.
    • 同一结果不应该在图和表中同时出现.
  • 自问自答

    • 实验的主要目的是回答一些作者和读者关心的问题.
    • 采用自问自答的方式, 在实验之前提出这些问题, 在实验结果列出之后逐个回答它们.
  • 内部比较

    • 展示参数变化所导致的性能变化.
    • 二维图一次只能展示一个参数和一个性能指标. 如果有很多参数, 就只讨论最重要的几个.
    • 展示主要方案与其变种相比的优势.
    • 有时候有好几种可选方案, 通过比较, 可以获得最佳那个.
  • 外部比较

    • 与已有算法进行对比,比较经典方案, 基准方案, 最先进的方案.
    • 很多时候使用柱状图,如果数据太多, 用表格就比图合适.
    • 要把参数影响, 数据集大小影响也表现出来, 就只有用折线图.
    • 最重要的比较放在最后.
    • 要有足够的文字进行分析, 不能让读者自己去观察.
    • 并不需要在所有数据集上击败其它方案.
    • 在分析自己方案优势之余, 也应该分析它的劣势.

2.结论怎么写

  • 结论不要太长, 5 句就够了. 如果想讨论的内容比较多, 应该在本节之前加入一个单独的 Discussions 小节.
  • 避免使用与摘要内相同的句子.这里应该说我们获得哪些观察与结论,即结论要比摘要更加具体.
  • 进一步工作可以列出 3 至 5 条. 读者很可能非常关注这一部分, 因为他们可以按照这种思路继续进行研究. 作为一项研究工作, 打开一扇门比完全解决某一问题更重要. 如果这一部分写得好, 就会有很多的引用. 引用数量也比论文发表数量更重要.

第八课: 参考文献、图片与图摘要

1.参考文献的注意事项

  • 使用Latex 提供的 bib 文件进行参考文献的管理.
  • 不直接使用网上的 bibitem, 正确的做法是: 使用一个正确的模板 然后把文献的内容填进去, 可以避免多数问题.
  • 将等号进行列对齐,保持良好的习惯: 保证格式正确. 否则会隐藏一些错误.
  • 作者名不要缩写 . Latex 自己会进行必要的转换.
  • 注意题目的大小写, 可以用花括号强制设置.
  • 期刊的名字按照正常方式写即可. 有时候 Information Sciences 会缩写为 Inf. Sci. 可以不管.
  • 会议名如果使用简称, 就不要再写全称. 事实上, 级别高的会议, 大家都知道其简称. 级别低的会议最好别引用.
  • 由于有 year 域, 不要在会议后面再加年份, 如 AAAI’20, 这样导致年份信息重复.
  • 页码之间应使用两个连词符 -, 最终的效果就是一条比较长的横线.
  • 特殊字符需要使用转义符才能正常显示. 如 IEEE Transactions on Knowledge & Data Engineering. 有些西欧字符, 也需要查阅 Latex 相应标准, 如\ "{o}表示上面有两个小点的 o.
  • 除最后一行外, 其它行应以逗号结束.
  • 为了保证格式的正确性, 应检查生成的 pdf 文件. 偶尔还会根据投稿期刊的要求来进行 bibitem 的修改.

2.图片与图摘要

  • 尽可能使用矢量图. 这样在放大的时候就不会失真. visio, matlab, python 生成的图都可以存为矢量图.
  • 图注可以相当长. 有些期刊要求图片是自封闭 Self-enclosed 的, 即仅看图注的解释就够了.
  • 围绕图的说明性文字应该比较长. 它占的版面应不低于图片本身版本的 1/2, 当然也可以是两倍.
  • 彩图很贵. 如 ESWA 要求为每个彩图付费 $200. 应保证你的图片打印成黑白的仍然可以表达自己的意思.
  • 一般而言, 引用图片时, 应保持与图片编号的一致. 如: 图注的编号是 Fig. 1, 正文中就用 Fig. 1 指代; 图注的编号是 Figure 1, 正文中就用 Figure 1 指代. 但作为主语时, 建议使用 Figure 1.

第九课: 表格的控制和审稿意见的回复

1.表格的控制

  • 所有列都为左对齐, 使用 0.0000 而不是 0 来保证对齐.
  • ± \pm ± 用于显示标准差. 使用下标以节约版面.
  • 粗体指示最好的效果, 斜体指示次好的效果.
  • Meanrank 指示不同数据集的总体效果.
  • 数据集应按照某种方式排序, 如对象数、属性数、来源领域等, 并保持所有表格中的顺序一致.
  • 大于 1000 的数据应该用逗号隔开, 如 1,024.
  • 作为良好的习惯, 源码里面也应该对齐.

2.审稿意见如何回复

  • 思想上务必要端正态度, 编辑和审稿人花大量时间义务审稿不是想为难你, 而是来帮助你改进论文质量.
  • 直接回答问题, 而不要顾左右而言他.
  • 回复不要太长, 正文中进行相应的修改才是重点.
  • 正文中修改部分应用蓝色字标出.
  • 审稿人的拼写错误要帮他纠正.

第十课:论文写作流程及实验效果

1.论文写作流程

  • 初稿
    本阶段是从细节到总体.找一篇已有的论文, 在它的基础上修改, 很多风格、用法都可以借鉴.初稿只需要把自己的想法准确无误地展现出来, 特别是保持文字、图示、算法、结果的一致性.

    • 程序: 根据任务写出程序并调试.
    • 基础实验: 用表格展现运行时间, 自己算法的实验结果等.
    • 算法描述: 写出算法伪代码, 或者画出流程图.
    • 方案描述: 用一张图描述总体的方案. 可以是开局一张图.
    • 摘要撰写: 用文字描述方案.
    • 引言撰写: 与摘要同样的节奏, 只是要详细些, 着重解释开局一张图.
  • 修改
    按照由易到难的顺序, 挑选一个部分进行讨论、修改, 并不断进行版本的更新.本阶段从总体到细节,应频繁地在小组内部讨,需要增加如下内容:

    • 相关工作的文献综述, 含参考文献.
    • 理论基础、符号表.
    • 对比实验, 很可能涉及重新实现、运行别人的算法.
    • 消融实验.
    • 实验的图形展示.
  • 检查与打磨
    所有作者进行论文的问题检查、语言打磨.

2.实验效果不好怎么办

  • 分析原因:

    • 方案是否合理. 虽然结果无法控制, 但方案本身有设计理念, 有物理意义. 机器学习的核心: 防止过拟合.
    • 方案是否与数据集匹配. 有些方案只适用于稠密数据, 即不能有太多的缺失值; 有的方案只适用于类平衡数据, 即正负样本数量差距不大. 如果不匹配, 很可能导致效果差.
    • 运气. 机器学习的结果不是确定的. 即使你的代码正确,逻辑也正确, 方案也不一定一实现就获得很好效果.
  • 解决方案:

    • 设计替换方案 (alternative approach). 把算法的几个部件分别用类似的方案替换. 保证你选择的每个模块、增加的每个技术都起到了正向的作用.
    • 观察算法所适用数据的特点. 一个算法的适用范围有局限性, 可以把适用和不适用的数据集分开, 结果放在两个表里面, 进行详细讨论.
    • 使用各种评价指标. 有可能某些算法在某些指标上表现更好.
    • 调参. 比如神经网络的层数, 每层的节点数据, dropout 比例.
    • 输出中间结果. 只有深入了解代码的中间结果, 才能获得更多的观察, 有办法进行改进.

总结

  • 计划和组织:在开始写作之前,制定一个详细的大纲,明确每个部分的内容。安排时间表,以确保有足够的时间来完成每个阶段。

  • 确定主题与目标:清晰定义研究的问题或论点。明确文章的目标和核心信息。

  • 选材与文献综述:对相关文献进行广泛的调研,了解领域内的先前研究成果。引用和引用相关研究,以支持论文的观点和主张。

  • 结构与段落:使用清晰的结构,如引言、方法、结果、讨论和结论等。每段应有明确的主题句,支持性的证据和合理的过渡。

  • 引言:在引言部分引出主题,概括研究问题。提供背景信息,概述文献综述,并明确论文目的。

  • 方法:详细描述研究方法,以便其他人可以重现这项研究。提供足够的信息,包括数据收集、实验设计和分析方法。

  • 结果:呈现实验或研究结果,使用表格、图表和图像,以清晰传达信息。

  • 讨论:分析结果,讨论它们与所研究问题的关联。强调研究的意义,提出研究局限性,提出未来研究方向。

  • 引用和引文:使用正确的引文格式并确保一致性。避免抄袭,准确引用他人的工作。

  • 语言和风格:使用清晰、简练和准确的语言。避免使用不必要的术语和复杂的句子结构。

  • 校对和编辑:在完成初草稿后,进行校对和编辑,检查拼写、语法和格式错误。最好请其他人审阅这篇论文,以获取反馈和建议。

  • 反复修改:论文写作是一个渐进的过程,所以不要期望第一稿就是最终稿。反复修改和完善论文,直到对结果感到满意。最重要的是,耐心和坚持是论文写作的关键。不要怕重写和改进,这是提高写作质量的方式。同时,及时向导师、同门寻求意见,以帮助你提升论文的写作速度和最终的论文质量。

  • 7
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值