Hadoop&Spark
文章平均质量分 90
_well_s
这个作者很懒,什么都没留下…
展开
-
HDFS原理总结
1. HDFS优缺点 1.1 优点 1.1.1 高容错性 可以由数百或数千个服务器机器组成,每个服务器机器存储文件系统数据的一部分; 数据自动保存多个副本; 副本丢失后检测故障快速,自动恢复。 1.1.2 适合批处理 移动计算而非数据; 数据位置暴露给计算框架; 数据访问的高吞吐量; 运行的应用程序对其数据集进行流式访问。 1.1.3 适合大数据原创 2017-07-29 17:49:02 · 5036 阅读 · 0 评论 -
YARN原理总结
问题导读 1.hadoop1.x中mapreduce框架与yarn有什么共同点? 2.它们有什么不同点? 3.yarn中有哪些改变? 4.yarn中有哪些术语? yarn是比较难懂的一个地方,也是很重要的一个组件,不止hadoop使用yarn,spark,storm也可以使用yarn。因此yarn的理解是非常重要的。如果刚开始学习,其实还是挺难懂的。因为很多的概念比较抽象原创 2017-07-29 18:33:19 · 1225 阅读 · 0 评论 -
Spark原理总结
一、Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapRe转载 2017-07-30 12:55:05 · 873 阅读 · 0 评论 -
Map-Reduce和Spark
Overview 回顾python中的函数式编程python中的map和reduce函数用map写并行代码Map-Reduce编程模型用python写spark程序 Reading Introduction to Parallel Computing, Blaise Barney, Lawrence Livermore National Laboratory. De翻译 2017-07-30 14:29:43 · 777 阅读 · 0 评论