找到正确的论文
假设你现在找到了一篇论文作为起点。首先,你需要围绕它做一些背景研究,方法是查阅相关文献,以及在这些论文末尾的“参考文献”部分列出的文献资料,去谷歌学术搜索标题和作者。是否在你找到的论文中有比你原来的论文做得更好论文?如果答案是肯定的,那就把你正在看的论文搁在一旁,以你新找到的那篇为新起点。谷歌学术的另一个很酷的特性是,你可以找到引用给定论文的论文。这真的很棒,因为你所要做的就是沿着从一篇论文到下一篇论文的引用链发现该领域最新的论文。从一个起点找到一篇好的论文简单来说就是寻找被当前论文引用的论文,以及引用当前论文的论文。沿着引用链并随着时间的推移,你应该会找到既高质量又符合你需要的论文。
重要提示:注意这个简单探索和计算的阶段,你不必阅读和完全理解这些论文。寻找正确的论文应该通过略读论文并且利用你的直觉来发现垃圾论文(基于你的阅读论文经验而言)。
了解所有术语的定义
阅读科文献最大的错误之一就是推测出一个单词的错误意思。例如这句话:“The results of this segmentation approach still suffer from blurring artifacts”。在这里,“segmentation”和“artifacts”这两个词在英语中具有一般意义,但在计算机视觉领域中又具有特殊意义。如果你不知道这些词在这篇文章中有一个特定的意思,那么当你不刻意注意这些术语时,你的大脑就会填入一般的解释,为此,你可能会错过一些非常重要的信息。因此你必须:
- 避免推测单词的意思,每当有疑问查找这些术语的专业解释,通常是通过该领域的主要论文文献;
- 在一张纸上写下所有你不认识的相关文献资料概念和词汇的术语表。如果你第一次遇到诸如“fiducial points”和“piece-wise affine transform”之类的概念,那么你应该查找它们的精确定义并将其记录在术语表中。概念是语言支持的大脑捷径,可以让你更快地理解作者的意图。
在结论中寻找统计分析
如果作者只给出了他们算法结果的一条曲线和另一条曲线,并说“看,它比另一条精确20%”,那么你就知道你读的是垃圾论文。你想读的论文结果是:“通过N个实例的测试,我们的算法表现出了显著的改进,使用两个样本T检验,p值为5%。统计分析的使用表明,在论文复现时与作者的结果差异最小,这很好地证明了,这些结果在推广时是可信的(除非作者为了让自己的结果看起来更真实而说谎,然而这种情况也经常发生)。
验证论文给出的结果
仔细阅读论文的“实验”部分,尽可能使用与作者相似的测试数据,以达到接近重现的实验条件,这增加了你再现作者所获得结果的可能性。不使用相似的实验条件可能会导致你误判自己的复现代码可能出现问题,而不是判断为错误的数据而导致的失败。只要你能够基于相似的数据再现实验结果,那么你就可以开始在不同类型的数据上进行测试。