干货 | 科研大牛们怎么读文献?

点击上方,选择星标置顶,每天给你送干货

阅读大概需要7分钟

跟随小博主,每天进步一丢丢

作者:冲气以为和(Harvard University)

链接:https://www.zhihu.com/question/21278186/answer/593999044

科研大牛很难企及。我还在读研,但是属于常年做综合性大工作,每篇工作都准备发顶刊的科研工作者。一作,co-first,和co-author发过几篇Nature, Science系列子刊,谈下读文献感受。

首先,必须养成每日读并分类3~4篇文章的习惯,天天坚持,这样每年就可以收集整理1000篇以上的paper,这个量是根基这样才会有几年以后的得心应手,领域门清的感觉。

按照上面每年1000篇的节奏,积累两三年就会感觉,文献越读越少。越来越发现领域更新很慢。paper很多,但是真正有意义的凤毛麟角,多数都是微小的improvement,所以跟进领域进展其实很轻松,每两三天茶余饭后刷刷几个子刊正刊就行了。

科研做着做着我发现,一旦发过顶刊,再也看不见什么小文章。只会关注一下最近各个Nature或者Science新出的工作,其余小journal,除非有水平跟我差不多的朋友跟我亲自推荐‘这个文章不错,感觉好像投低了’我才会抽时间看一看,否则一般看一眼图就过去了,也没必要仔细看。不排除有好工作在小journal的可能,不过时间会让这些不起眼的工作逐渐发散光芒。

做到领域里所有的paper在脑中是以milestone形式体现的,哪篇paper有什么contribution非常清楚,新出的文章归在哪类心里也有数。所以跟进文献不如说甄别和欣赏工作,值得欣赏的工作永远是罕见的。虽然高质量工作往往出现在子刊级别以上,然而journal profile也不代表工作就有意义,很多大组发了很多子刊正刊,其实并不能做到名副其实,让人看了反而也会感到痛心。

******有同学问我跟进子刊journal要跟进多少种类,这里解答一下******

这个要看自己工作的area跟多少个子刊有重合度,只要有重合度,就应该关注。判断方式就是看一下每个journal的scope and vision,一般官网都有写,或者总结一下跟自己相关的paper都是哪个大journal出来的,就知道啦。

第二个小tip,虽然国内网有限制,但是我还是强烈推荐用twitter。学术用twitter可以事半功倍了解学科前沿。很多科研巨佬,尤其北美都在用,平时会通过推特推广自己工作,他们读到一些好工作也会转推并评论,这样可以很及时地tracking最热门的世界级科研成果,而且都是带着大佬们的insight的。

还有个小tip,因为子刊工作都是极有深度而且包罗万象的,所以一般短时间内很难理解到很高的水平。这时候不要着急,大子刊online会伴随很多评论文章(news&views)和新闻的。这些材料写得都非常通俗易懂,通过这些快速理解这些新online工作的contribution,建立联系,是非常高效的办法。如何快速tracking这些材料呢,大家可以看一下有个东西叫Altemetric,这是个衡量文章immediate attention的矩阵,如图(恬不知耻放个自己的工作的altemetric):

Monitoring of the central blood pressure waveform via a conformal ultrasonic device

https://www.nature.com/articles/s41551-018-0287-x

可以看到news栏下有很多媒体写得评论文章,随意点开哪个都非常通俗易懂,可以快速抓住要点理解工作。

****根据同学们私信反馈,更新一点如何小白从零入手开始变成master of literature。****

阅读量的问题前面讨论过,不再赘述。现在讨论小白如何在每天坚持做好基本阅读量,快速建立自己的文献网达到高手认知水平。做好如下两方面:

1。跟进新journal,如何跟进,推荐用feedly,一款可以内嵌chrome浏览器的软件软件图标长这样,浏览器一搜就行,安装很方便。

软件图标长这样,浏览器一搜就行,安装很方便。

界面如图

左边栏zoom in如图

灰色小数字显示有多少新出的paper用户是没有读的。

每天早上起来不是很忙就可以打开feedly,刷刷自己感兴趣的journal有什么更新。

每天早起刷一刷,世界科研动态都知晓,开心不开心~

2。扫清一切旧工作,如何扫,通过google scholar检索关键词就好了,把相关的都下载下来,按照问题或者自己的关键词归类,如何归类?软件推荐用endnote,也有很多人用mendeley,都可以的。

内界面长这样

endnote我比较喜欢的一点是可以将文献分成一大类和二大类,我习惯把一大类建成项目名字或者一个领域,里面再继续划分n个小类。举个例子,拿做project为例(上个project跟血压相关),我就开了一个第一大类叫blood pressure,第二大类是文章的discussion point。

zoom in如下图

里面其实还有很多二级目录,每个目录里都有几篇,十几篇不等文章归类在里面。其实这个过程就相当于每天读文章,塞到一个个目录里面(充实和完善自己的每个小idea),积累idea和逻辑构建一篇paper。为啥这么干?因为每篇paper如果仔细分,其实是由无数小idea构成的,每个小idea建立好,idea和idea之间架构cohesive,符合逻辑,自然就是一片strong paper。所以需要扫荡跟自己项目相关的所有文献,不一定要全部读完,但是要通过梳理,直到某个topic明白为止。这样做下来的好处就是,paper积累足够多,往往自己文章需要discuss哪些点,详略如何,也一清二楚了。

总结一下,构建一个比较强的领域认知需要做

  1. 读足够的量(每天3~4篇不需要多)

  2. 跟进新工作

  3. 不断拓宽知识面扫清老工作

祝大家新年多发高质量论文!

往期推荐:

一大批历史精彩文章啦

干货 | 自然语言处理中注意力机制综述

有偿征稿!

干货|高效阅读英文文献你必须知道的技巧

如何到top5%?NLP文本分类和情感分析竞赛总结


好文!必须好看!

### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值