如何阅读一篇文献
一、为什么要读文献
文献包括出版的书籍、专业技术报告、期刊/会议论文、专利文书、软件著作权文书等。
广义上还可以包括个人名义的技术博客/随笔等。
本文语境中,文献主要指正式的期刊/会议收录论文(不包含 arxiv)。
文献本身的特点包括:
- 前沿性(cutting-edge):通常关注时代前沿乃至超越时代的研究课题,很少在陈旧或已广泛使用的技术上打磨折腾。
- 专业性(Professionalism):与技术科普不通,文献所探讨的议题通常足够新或足够深,旨在专业圈子内产生影响力,推动技术发展。
- 严谨性(Precision):许多优秀的文献资料都是经过复杂的审议与反复的修改,用词与表达通常更加严谨,经得起时间的检验。
- 易读性(Readability):文献结构通常是十分标准且完整的:“摘要-简介-背景与动机-设计与实现-实验验证-相关工作-结论-引文列表-附录证明”,适应各个需求层次读者的阅读。
- 可追溯性(Traceability):通过“相关工作(Related Work)”与引用文献可以容易发掘技术发展脉络。
进入工业界后,继续阅读学术论文具有多方面的好处,这不仅有助于个人职业发展,也对公司的技术进步和创新具有重要意义。
公司层面:
- 产品力提升:比如预研产品的部分新特性,没有协议支持,没有业界的实现方案作为参考,只能通过调研文献分析设计方案。
- 促进产学研交流:阅读学术论文并将其中的理论和技术应用到实际工作中,可以促进学术界与工业界的知识交流和技术转移,加速科研成果的产业化进程。
- 招合适的人才:看论文定向(实验室)招人是效率非常高的。
个人层面:
- 知识更新:及时了解行业前沿技术和最新研究成果,确保自己的知识库不过时。
- 创新思维:激发思考,启发新的想法,有助于在工作中提出创新的解决方案。
- 能力提升:系统地阅读某一领域的学术论文,可以帮助深入理解该领域的知识体系、技术发展历程和未来趋势,有利于在该领域内建立深厚的专业素养,提升竞争力。
- 前沿布局&决策:慎防“拍脑袋”、少用“我觉得”,用数据和证据说话。
二、读什么样的文献
确定阅读文献的好处与目标之后,一个自然的问题是:我该阅读哪些文献?什么样的文献资料是适合我的?
在学术界,通常有一些心照不宣的标准:
-
读顶会顶刊的文章(以计算机技术领域为例,上至 Nature/Science,下至 CCF A/B 期刊会议);
-
读最新发表的文章(越是近年发表的,越能代表最前沿的技术和更完善的对过去工作的总结);
-
读 survey 类型的文章(survey 通常是对某一大的技术领域个各研究点进展的总结,作者通常是学术界大佬);
-
读热门方向的文章(越是热门方向,参与的科研人员越多,提出的技术理念可能也会越先进);
-
当然,最后并且最重要的原则仍然是取决于个人的研究兴趣,根据兴趣选题查阅最适合自己的论文。
三、如何查阅文献
3.1 文献搜索工具
- 谷歌学术(还有对应的专利查询支持:谷歌专利,前提是科学上网)/ 必应学术 / 百度学术。
- dblp (Digital Bibliography & Library Project for Computer Science)。
- 主流会议官网,例如高性能网络相关会议 SIGCOMM/NSDI/OSDI/SOSP/ATC/FAST 官网,直接查看 Program 的收录论文。
- AI prompt:ChatGPT 3.5/4.0, Kimi 等。
3.2 文献搜索方法
-
标题搜索 search by title(直截了当);
-
主题搜索 search by topic (博观约取);
-
单位搜索 search by community(人才济济);
-
作者搜索 search by author(慕名而来);
-
引文搜索 search by related work / references (近朱者赤);
-
订阅推送 subscribe & inform (守株待兔).
-
交流咨询 ask & communicate (仙人引路)。
上述文献搜索方法中,最常用的是主题搜索、作者搜索和引文搜索。
其实在不同的阶段使用的搜索方式通常会不太一样。
在刚进入一个新技术领域时,对它没有特别宏观全面的概念,通常就可以采用主题搜索(如 RDMA,CXL 等),随机阅读 10 篇左右文章,对该技术领域有一个大致的概念;或者通过交流咨询的方式,请学术界/业界前辈推荐相关核心论文阅读。
确定研究点和兴趣点以后,可以采用更加细粒度的主题搜索(如 RDMA congestion control, RDMA virtualization, RDMA security 等),此时可以进一步通过引文搜索不断完善丰富自己的摄入。
当研究地更加深入后,就能大概明白做这一技术的都有哪些单位,哪些研究者,于是可以通过作者搜索查漏补缺,发掘新的研究课题;还可以通过订阅推送的方式获取相关研究者的最新发表文章。
四、如何阅读一篇文献
文献的语言表达为了追求严谨性,一般不会像很多科普博客文章那样举很多生动但不完全恰当的例子。所以阅读时需要一定的专注度和思考力。
如果是阅读英文文献,需要具备一定的英文功底(但其实现在要求也不那么高,可以用实时翻译或AI智能梳理)。
4.1 阅读目的
阅读文献的最重要的原则是:不要为了读文献而读文献。
阅读目的不同,阅读的方式方法也就有所不同。
例如,如果我只想在最快时间知道这篇论文对我们的工作有没有用,还能规划时间去细读,那么基本只看题目摘要就够了(甚至不需要下载权限)。
如果我想知道课题的需求背景和发展脉络是什么,只需要读“背景与动机”章节就可以。
如果我想知道该领域的其他密切相关的方向或课题,只需要读“相关工作”章节就可以。
如果我想知道这一类课题如何开展实验研究,有哪些代表性指标,只需要读“实验评估”章节就可以。
顺序上建议先遵循粗(速读)后细(精读),在广泛摄入的基础上挑选一篇最适合自己最有价值的文献去精读。
4.2 论文速读
所谓论文速读,是指以最高效的方式获取一篇文献自己所关注的核心信息,比如研究背景、研究动机、核心设计或实验方法,而不是咬文嚼字,拘泥于技术细节。
速读一般与泛读(短时间内广泛阅读大量素材)一起实施。不进行论文速读,就难以通过泛读来及时获取大量知识输入。
速读非常适合工业界的快速节奏,也是最适合系列论文(搜索筛选出的特定方向按时间线组织的数篇论文)和 survey 文献的读法。
论文速读有哪些常用技巧呢?
- 看作者的 presentation 素材(视频/slides)
- AI 辅助分析
- 只读论文的关键段落
4.3 论文精读
如果从未精读过一篇论文,也就无法真正写出一篇(好)论文。这也是为什么科研工作者需要具备精读论文的能力。
精读论文的条件较为苛刻,通常来说需要连续一段不被打扰的时间全神贯注地阅读并思考,在紧张的工作节奏中一般难以实现。
因此,最适合论文精读的时间一般是清晨与夜晚。
我的论文精读方法:三步法。
1、一阶段:全文半步读,边读边思考。这一步通常很花时间和精力。
2、二阶段:全文通读,抱着学习的态度,一气呵成地读完。由于有一阶段的基础,这一步通常很快,是欣赏地去读。
3、三阶段:抱着批判的态度,这一步是要”挑毛病的“:没有完美的论文,只有老练的表达(审稿人一般会跳过前两个阶段,直接进入第三阶段)。
参考链接:
Havard: How to Read A Paper
SIGCOMM: How to Read A Paper
五、如何管理文献资料
5.1 管理&阅读工具
通常我们从网页下载的论文格式是 PDF。一些中文文献如学位论文仅支持 .caj 格式,需要使用 CAJViewer 阅读,本文不作讨论。
常见的论文管理工具有 Mendeley, EndNote。
在个人电脑上,我个人最喜欢的管理和阅读工具是 Mendeley,可以智能展示题目摘要并支持主题/作者/关键字搜索,也可以创建虚拟文件夹分类,还支持团队协作模式。
在公司,我个人最常用的组合实际上是文件夹管理 + Everything搜索 + Adobe PDF 阅读批注。
其他工具:
(1)Zotero: Zotero是一个免费的、开源的文献管理软件,适用于收集、管理、引用和分享研究资料。Zotero可以轻松地保存来自网络的资料,并与Word和LibreOffice等文字处理软件集成,自动创建引文和文献列表。
(2)ReadCube Papers: ReadCube Papers是一个文献管理和阅读工具,提供强大的文献发现和阅读体验。它允许用户访问数千个科研数据库和期刊,支持文献管理、PDF注释等功能。
(3)RefWorks: RefWorks是一款基于Web的文献管理服务,适用于收集、管理和组织研究资料。它允许用户从多种数据源导入参考文献,并支持多种文献格式化风格。
(4)Sciwheel: Sciwheel(前称F1000Workspace)是一个综合性的研究平台,提供文献管理、PDF注释、协作和知识发现等功能。它特别适用于生命科学领域的研究者。
5.2 文献分类法
通过对文献实施分类,可以在必要时更高效地检索论文。
- 无特殊分类 name 法:给每一篇论文 pdf 起好文件名,通过 everything 全局快速定位。
- 主题分类法:基于研究主题分类整理,例如参考第八章分类法。
- 期刊会议分类法:基于期刊名和会议名按年份整理。比如存储关注 FAST/SIGMOD/ICDE/VLDB,网络关注 SIGCOMM/NSDI/INFOCOMM,操作系统与体系结构关注 SOSP/OSDI/HPCA/MICRO。
- 大牛分类法:基于特定研究者分类,整理其发表论文。
六、常见问题
1、英文阅读能力比较局限,但是也想通过论文获取前沿领域的专业知识,该怎么做?
答:目前英文阅读能力其实并不足以构成论文阅读的瓶颈。读论文时可以采用翻译工具(如谷歌翻译、网页翻译工具、有道翻译、AI 翻译等)。
2、阅读论文感觉很吃力,经常会遇到一些不理解的术语,该怎么做?
答:初期遇到这样的情况是很正常的。一开始可泛读大量材料,“不求甚解”,尽快熟悉领域术语,后续在读论文时可集中查阅相关术语背景(维基百科等)。
3、有没有好的中文文献?
答:非常稀少,中文文献整体质量较差,目前为止没有值得推荐的会议。期刊主要推荐“信息科学”、“计算机研究与发展”、“软件学报”。至于知网和万方数据库等,虽然收录比较全面,但因为各种霸王条款,很少能真正普及开来。
4、网络上有文章或者博客也会总结论文,为什么不直接看他们的内容呢?他们可能说得更加简洁易懂。
答:总结论文的博客有点像“二道贩子”,货(论文)转手一道可就不一定原汁原味了,经常会出现大量删减或夹带私货的情况。作者水平鱼龙混杂,水平糟糕的博客如过江之鲫,甄别成本也非常高。许多论文博客甚至只是英译中,而且翻译质量一言难尽。所以,读论文最好是原汁原味,博客可以作为辅助材料,帮助理解一些设计点。