大数据
滚滚红尘125
决定人生高度的是体力,不是智力。加油
展开
-
No.5大数据入门 | MR实践:文件分发方式-file/-cacheFile
上一篇文章我们在本地测试了WordCount,以及在集群跑了Wordcount实例。今天我们将介绍在集群上运行实例时的是那种文件分发方式。 -file 从本地分发文件,适于文件较小的情况 -cacheFile从HDFS上分发,文件可以大,需先把文件上传至HDFS -cacheArchive通过解压压缩包形式进行分发,压缩包放于本地即可 1)-file形式分发 map.py如下: #!/usr/bi...原创 2019-03-14 22:54:40 · 731 阅读 · 0 评论 -
No.6大数据入门 | MR实践:文件分发方式-cacheArchive
上文我们介绍了两种分发文件方式,接下来我们介绍第三种:通过解压压缩包形式进行文件分发:其中white_list是以压缩包形式上传的,并且也是需要先上传至hdfs上,这里我们的压缩包如下: 将其上传至hdfs上: 3)-cacheArchive形式分发 map.py需要重新开发,对目录进行遍历并读取压缩包文件的内容: #!/usr/bin/python import os import sy...原创 2019-03-14 22:57:24 · 485 阅读 · 0 评论 -
No.7大数据入门 | MR实践之--输出数据压缩
1、当输出数据量较大时,可以使用Hadoop提供的压缩机制对数据进行压缩,减少网络传输宽带以及存储消耗。 2、可以指定对map的输出结果进行压缩,也就是整个mapreduce中间过程进行压缩,也可以指定对reduce的输出结果也就是最终结果进行压缩。 3、其中对map输出进行压缩主要是为了减少shuffle过程中网络传输的数据量,而对reduce输出进行压缩主要是为了减少输出结果占用的HDFS存储...原创 2019-03-14 23:01:51 · 333 阅读 · 0 评论 -
No.8大数据入门 | MR实践之--全局排序一
本篇我们简单学习下Hadoop如何使用MapReduce进行全局排序? 首先MapReduce其过程本身中就有排序,那么其排序原理是怎样的?我们先了解其排序原理后,再考虑是否可以加以利用从而进行全局排序。 1、mapreduce中的排序原理: hadoop中默认按照key值进行排序的,且是按照字典顺序进行排序的。 我们知道mapreduce进程中数据的流动最简单的形式就是map>reduce...原创 2019-03-14 23:14:59 · 399 阅读 · 0 评论 -
No.9大数据入门 | MR实践之--全局排序二
接上篇:hadoop全局排序 本篇通过设置partitioner,多个reducer来实现全局排序。 这里的思路一个partition对应一个reduce的task,reduce的输入本来就是对key有序的,所以很自然地就产生了一个排序文件,如果是分多个partition呢,则只要确保partition是有序的就行了。 比如我们的数据是这样的 aaa bbb ccc 我们设定key=aaa bbb...原创 2019-03-14 23:19:07 · 324 阅读 · 0 评论