经典的论文也是需要读的。并不是所有的论文都值得细读。论文不是从头赶着朝下读。
目录
收集和组织论文
收集
基本上好的会议和相关的兴趣组,评测都被收录到ACL Anthology。也就是每年会议上的Paper都会在这个网站,网址如下:https://aclanthology.org/
点进去是主会,直接去搜关键词就可。
这里除了Paper原文还会有开会时作者讲的视频、software、code、会议海报。如果看NLP顶会的内容这些就差不多足够了,但这些会议会有延迟,至少会隔了几个月至半年。如果去找最新的这个方向上的Paper的话,arXiv 是不二之选,网址如下:https://arxiv.org/
这里说一下高级检索,
条件只有与或非,注意后边限定一下是All fields,Subject限定成Computer Science(cs) 也就是计算语言学,可以加一个or Abstract,如下
这样可以把名字中不含关键词,而摘要中含的也可以一并找出。
组织
1.通过会议的方式分类
在aclweb上点开就行,可以总结出这个方向在某一时间段的发展倾向性。
2.是否是arXiv上的文章分类(preprint or not)
arXiv需要自己手动去更新,看arXiv上的文章是否中了
3.根据问题(推荐),方法和数据集分类
推荐根据问题分类 这个在写Paper的时候重要
选择更好的Paper
看Conferences、Relation、Citation、Influence、Code。
Conferences 会议
Relation 相关的文章
找跟自己方向最最最相关的,不要把一大堆没有什么用的也拿过来看,纯属浪费时间。如果需要可以找这个方向的上级(父级)去找一些有共同之处的方法。
Citation 引用数
半年之内能上到三位数或者五六十 就是一篇不错的Paper
Influence 影响
在这个领域,每年在做的就是几个比较大的组,他们可能中的数量占百分之六七十。先看一看顶会审稿的AC,然后再添一添 找一下其他的。
Code 代码
这个大多数可以判断是不是一篇水论文。
论文阅读顺序
(第一遍: 先看题目,摘要和总结,读完这三部分大概知道论文在讲什么;然后可以看实验部分的一些图和表,方法中的图和表,这时决定要不要细读。第二遍: 如果可以细读,那么可以从头到尾逐行读,不过不要注意太多细节,那些公式或者证明或很细节的东西可以忽略掉,但主要要搞清楚那些重要的图和表每个字在干什么事情,比如说方法里面整个流程图长什么样子,算法的图长什么样子,实验里每张图的x轴在干什么,y轴在干什么,每个点是什么意思,作者提出的方法和别人的方法是怎么对比的,之间差距有多大,中间可以把相关的文献圈出来,就是作者说我们是做某个问题,这个问题是谁谁谁谁谁之前提出来的,我们是在谁谁谁的方法上改进上来,如果发现这些引用的重要文献你没有读过就圈出来,如果感觉这个文章太难没太读懂的话可以去读之前引用的文章,读完之后再来读可能会好理解,第三遍: 最详细的一遍,要知道里面每句话在干什么,每段话在说什么,在读的时候可以不断的去重复实现这篇文章或者用一句话说我提出什么问题,用什么方法来解决这个问题,可以去想如果是我在做这个事情的话,我可以用什么方法来实现这个东西,然后作者在说做实验的时候,可以想如果换自己来做的话自己应该怎么做,能不能比他做的更好,然后作者说这个文章有些没有往下走的留到之后实现如果换成自己来做的话是否能继续往前走呢。这一遍就是关上文章大概能回忆出很多细节的部分,然后之后再基于它做研究或之后提到它时可以详细的复述一遍)
Abstract
Abstract+Introduction后半部分
Experiment+Conclusion
Do not just watch the title!
1.Abstract 在哪个任务上解决了什么问题,提的什么方法,什么样的数据集,最后获得了什么效果。
2.Abstract+Introduction后半部分
Introduction 前半部分是回顾前人的一些工作以及他们中间出现的自己想要去解决的问题,后半部分是稍微详尽的去描述自己所做的事情。图要看。
3.Experiment+Conclusion
结果要看,可能会有分析,值得学习分析的方法
4.Proposal
决定要精读时看,看有创新性的东西,看图,看公式(公式大多是在描述它的网型)
5.Do not just watch the title!
例如:Attention Is All You Need(Transformer)
做记录
到时候写文章时,Introduction中回顾前人所做时可以看哪些人提出了啥有啥问题。