研究心得:调研文献“快而全“的三步

前言

本人研究心得体会,仅做参考和讨论,本人为计算机工科方向,其他学科领域可能无法参考

调研文献一直是一件让人很头疼的事情,尤其是我们刚接触一个陌生的领域的时候,我们对其知之甚少,而恰好组里又没有师兄、师姐做过这个方向。这种情况下,求助现有的paper list是一个很好的办法,也有人会先去看一篇survey个人觉得也不错。但是,很多时候某些领域相对比较空白,这些外界资源也会很匮乏。这时候,走投无路的小白可能会盲目地打开谷歌直接就按照关键字去搜索了,然后就会发现:
在这里插入图片描述
然后,小白就会从第一条搜索结果开始看,abstract->introduction->methodology…好不容易勉强啃完,然后又开始下一篇…到最后,一大半的小白都会坚持不下去。

那么,假如说advisor给了一个topic,这个领域我们非常陌生,同时我们又没有额外帮助的情况下,我们如何白手起家,短短几天内就能对一个陌生的领域有一个整体的把控?

其实答案很简单,只需要三步。

步骤

1. 一篇就够

首先,假定advisor给定的topic是"open-domain relation extraction"

arxiv或者google scholar搜索词条(有关于advanced search请自行百度):
在这里插入图片描述
模糊查询出来的结果有153条:
在这里插入图片描述
文章呈现的列表是按照日期远近排序的。那么我们就自上向下,找一篇发表日期距离当下比较接近顶会上的文章 (注意!最好是顶会或者顶刊,而且是比较接近,也不要太近,原因后面会解释),比方说我现在是10月5日,那么我就找了一篇ACL 2021(ACL 2021收录结果公布是5月6日)的文章:
在这里插入图片描述
接下来自然就是阅读文章,注意一开始阅读文献的时候,因为对这个领域不太熟悉,所以我们不仅需要读他的methodology, 我们更加需要重点关注的是这篇文章的introductionrelated work! (很多人会武断地认为related work是"垃圾堆",本人持否定观点,而且对于领域小白来说,related work无疑是宝藏)

2. 他引了谁?

至此一篇比较新的顶会文章被啃完了,这个时候不要把他丢掉,然后无脑看搜索结果的下一条,而是返回到刚才那篇文章的related work
在这里插入图片描述
看看,人家都帮你把很多论文都整理好了

这个时候,看看related work里面所引用的文献有没有和你研究兴趣比较match的文章,比方说我现在对"deep-learning-to-hash"这个概念很感兴趣,那么我就从后往前把提及到的2015、2016、2017的文章去看一看。

这个过程就像是在顺藤摸瓜,一点点回溯,你一开始可能对这个领域的很多名词、称谓很陌生,但是回溯回去几篇文章之后,你脑子里的很多概念就会变得明朗。而且,由于每个领域一开始发展的时候会有很多不成熟的方法和尝试,作者们也会有各种各样的思考见解(insight)。他们之中,有些方法成为了paradigm, 而有些方法则被遗弃。慢慢地你对这整个领域的历史发展、来龙去脉就会了然于心。你对你"我到底要做什么?这个领域还有什么问题等待着我来解决?"的问题就会渐渐有数。

3. 谁引了他?

上面这个步骤非常消耗时间和耐心,一旦完成了上面这个步骤,基本上大半的工作你都完成了。接下来你还剩最后一步。

打开google research, 把刚才那篇paper的title原模原样打进去,然后点击"被引用次数":
在这里插入图片描述
之后你会看到从ACL 2021这篇SOTA之后,又有多少人可能沿着他们这篇的方向继续做下去:
在这里插入图片描述
可以看到从2021的5月到现在10月,有两篇工作引用了之前那篇顶会文章。当然,他们有可能只是引用了一下,可能做得东西会不一样,需要自己再去甄别一下。

至此,你所感兴趣的这个领域的绝大多数文章 (公开发表),已经都被你搜罗完毕,之后就是整理paper list,然后挑选那些和你关系比较密切的文章进行详细阅读。

QA:为什么不能是最新的文章?

上面说了,第一步的时候找的文章不能是很近很新的文章,原因在于两点:

  1. 太新的文章可能目前还没有很多人关注
    比方说还是上面那个例子,如果我在arxiv上找了一篇EMNLP 2021的文章(EMNLP 2021收录通知在8月26日,距离今天仅仅相隔一个月左右):
    在这里插入图片描述
    如上,这类文章由于还没有正式见刊,受到的关注度比较少,很有可能不纳入最近一些大组的考量范围内 (有可能就是那些要冲击ACL 2022的组),所以很显然你有可能会漏掉一些大组最近 (9月份、10月份刚submit到arxiv上的pre-print) 在做的工作。这样的话从前往后调研一些最新的工作可能会受点影响。
    相对的,如果是隔得远一些,这种情况就会好转。由于做一篇文章的周期一般为3~5个月 (自然语言领域), 如果说找的那一篇文章是ACL 2021收录的工作,从2021年5月份到10月份,刚好5个月时间过去,近期那些已经完成的最新的工作,他们的作者当初在调研的时候,肯定会引用这篇文章 (ACL 2021 的SOTA都没比,还想来投ACL 2022?)
  2. 太新的文章调研工作可能还不成熟
    因为arxiv上的文章都是pre-print,有些comment里面说自己是EMNLP 2021的文章,都有可能不是他们最终的camera ready版本。甚至有些是还在投的文章,比方说刚刚前几天submit到arxiv上的pre-print,他们很有可能只是先来占一个坑罢了,调研工作做的可能也不全。如果用这些文章进行从后向前的回溯,可能会出一些问题 (而且arxiv上的文章曾差不齐…)

tips

  • 需要额外注意,第一步中,在arxiv这种平台上找文献的时候,要注意文章最新的收录情况(有些作者发在arxiv上可能不喜欢comment,或者就是收录了之后忘了更新)。谨慎一点的话,最好把那些没有comment的文章去google上搜一下,看看它有几个版本,有些文章可能已经被顶会收录了的:
    在这里插入图片描述在这里插入图片描述
    另外,我们在投稿的时候不需要care我们的citation是来自arxiv上的还是文章见刊之后的(有点消耗时间)。当我们文章收录之后,改camera ready的时候,可以再去把自己的ref里面那些pre-print的收录情况更新掉。
  • 再插一嘴,本文只是调研文献的思路中的一种,还有一些其他思路。比方说,如果某个组近期的工作和你的很接近,那就去他们组advisor的主页视监呗【手动狗头保命】。很多时候某个领域的文章看多了,你会发现经常在做你这个领域的authors真就只有那么几个人…

仅作交流、参考,欢迎讨论!

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值