Hadoop系列
文章平均质量分 73
hadoop
lipviolet
面对现实,忠于理想~
展开
-
Hadoop系列---设计理念
另一种表示图原创 2019-02-27 22:08:26 · 253 阅读 · 0 评论 -
大数据---spark和mr的区别
首先最核心的两点:内存和磁盘的区别;job中途失败重新计算的区别。---spark最核心的概念是RDD(弹性分布式数据集),它的所有rdd在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr在计算过程中---mapr:一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中,在计算过程中,不同计算节点之间保持高度并行,这样的数据流模型使得那些需要反复使用...原创 2019-03-17 20:41:51 · 13400 阅读 · 1 评论 -
大数据---mr和spark的shuffer过程详解及对比优化
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。M...原创 2019-03-17 20:48:51 · 1283 阅读 · 0 评论 -
大数据---Hadoop的各种版本
<Hadoop>是一个能够对大量数据进行分布式处理的软件框架,可以一种可靠、高效、可伸缩的方式进行数据处理。其发行版除了有Apache hadoop外cloudera,hortonworks,mapR,华为,DKhadoop等都提供了自己的商业版本,商业发行版主要是提供了更为专业的技术支持,这对于大型企业更为重要,不同发行版都有自己的一些特点。其实主要就是Apache版本和众多...原创 2019-05-17 13:45:10 · 7384 阅读 · 0 评论