大数据相关资料论文小结

前言

不知不觉,2020年已经过去一半了,最近突然反应过来自己也看了不少文献资料了,就想着把看过的文献和觉得比较好的书籍做一个总结,基本都是大数据分布式领域的,回顾自己学识的同时,也给想从事或这个领域的小伙伴一些参考 😃。最后顺便把接下来要看的东西列个列表,也会将自己学习的心得和经验分享出来,有需要的童鞋可以参考参考。

另外有些文献看完我会进行整理和输出,这部分链接我一并附在文献的介绍后面,后面看的书或是文献也会保持这种习惯,如果觉得有兴趣欢迎各位大佬交流,顺便也可以点波关注~~

论文总结

MapReduce 《MapReduce Simplified Data Processing on Large Clusters》

从现在的眼光来看,Mapreduce可以说可圈可点。但在那个年代,这个思想可以说是相当先进的。不得不说Google一直引领技术潮流,包括近几年流行的k8s也是Google主导。

这篇文章主要介绍了Mapreduce的流程还有一些细节方面的介绍,如果已经有使用过Mapreduce编程的小伙伴应该看一遍就能懂。另外,看完如果想加以巩固的话,推荐做MIT6.824的Lab1,用go实现一个Mapreduce。至于什么是Mit6.824,百度一下就知道喔。我以前也有写过一篇介绍MR,有兴趣的童鞋不妨看看:从分治算法到 Hadoop MapReduce

地址:MapReduce: Simplified Data Processing on Large Cluster

GFS 《The Google File System》

GFS和Mapreduce这两篇论文直接催生了Hadoop的诞生。不同于Mapreduce,Hadoop的hdfs到今天依旧是工业界主流是海量数据存储方案,这证明了这一存储方案的优越性。

这篇文章介绍了Google内部存储方案GFS的实现,namenode存储哪些元数据信息,datanode如何保存数(问题可见这篇博客),带着问题阅读这篇论文。

不过熟悉Hdfs的童鞋读过后应该会发现,GFS和Hdfs其实是有些不一样的。比如上传的流程,namenode存储元数据的方式,至于为什么,等待各位童鞋挖掘答案啦。

另外在Hadoop之前用于存储“大数据”的是RAID,对这块有兴趣的童鞋可以看看这篇:从 RAID 到 Hadoop Hdfs 『大数据存储的进化史』

论文地址:The Google File System

Bigtabble 《Bigtable A Distributed Storage System for Structured Data》

Bigtable,目前业内闻名的Nodel组件Hbase就是它的开源实现。这篇文章主要介绍了Google内部基于GFS的分布式结构化数据存储系统。

GFS本身是适合追加数据而不适合随机写,文章介绍Bigdata为了适配这种特点而使用的LSM-tree存储结构,而后又阐述一些优化的方案,诸如布隆过滤器。关于LSM-tree有兴趣的小伙伴可以看看这篇:数据的存储结构浅析LSM-Tree和B-tree

论文地址:Bigtable: A Distributed Storage System for Structured Data

Spark RDD 《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》

Spark RDD的论文,RDD的全名叫弹性分布式数据集。当初MapReduce模型兴起的时候,大家都以为已经迎来了曙光,但一段时间后才发现这东西其实也不是万能,尤其是在机器学习等需要迭代计算的地方。而究其原因,其实是MapReduce在计算过程中,中间数据需要多次落盘,导致增加许多磁盘IO。

相比之下,RDD使用的DAG计算模型则更加优越。一方面是它将多个计算逻辑梳理为一个DAG有向无环图,可以一定程度减少不必要的shuffle等耗时操作。另一方面,更加侧重于使用内存进行计算,减少磁盘开销。

读这篇论文会收获到有关RDD的设计细节。

论文地址:

  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值