Ying

个人博客:http://smartsi.club/

[Hadoop]数据复制DistCp

1.需求我们项目中需要复制一个大文件,最开始使用的是hadoop cp命令,但是随着文件越来越大,拷贝的时间也水涨船高。下面进行hadoop cp与hadoop distcp拷贝时间上的一个对比。我们将11.9G的文件从data_group/adv/day=20170116下所有文件复制到tmp/...

2017-01-22 13:38:25

阅读数:1485

评论数:0

[Shell]命令行选项解析

1.概述getopts从符合标准POSIX.2选项语法的参数列表中获取选项及其参数(也就是,单个字母前面带有 - ,可能后跟参数值;单个字母可以分组)。通常,shell脚本使用getopts来解析传递给它们的参数。 当在getopts命令行中指定参数时,getopts将解析这些参数,而不是解析脚本...

2017-01-22 13:35:24

阅读数:1333

评论数:0

[Hadoop]MapReduce中的InputSplit

在查看数据块的如何处理之前,我们需要更仔细地了解Hadoop如何存储数据。在Hadoop中,文件由一个一个的记录组成,最终由mapper任务一个一个的处理。例如,示例数据集包含有关1987至2008年间美国境内已完成航班的信息。如果要下载数据集可以打开如下网址: http://stat-compu...

2017-01-11 16:04:21

阅读数:1206

评论数:0

[Hadoop]MapReduce多路径输入与多个输入

1. 多路径输入FileInputFormat是所有使用文件作为其数据源的 InputFormat 实现的基类,它的主要作用是指出作业的输入文件位置。因为作业的输入被设定为一组路径, 这对指定作业输入提供了很强的灵活性。FileInputFormat 提供了四种静态方法来设定 Job 的输入路径:...

2017-01-11 14:33:06

阅读数:2704

评论数:0

[Hadoop]Reducer总是能复用为Combiner?

Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势:Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每...

2017-01-08 13:39:56

阅读数:907

评论数:0

[Hadoop]MapReduce中的Partitioner与Combiner

Partitioners负责划分Maper输出的中间键值对的key,分配中间键值对到不同的Reducer。Maper输出的中间结果交给指定的Partitioner,确保中间结果分发到指定的Reduce任务。在每个Reducer中,键按排序顺序处理(Within each reducer, keys...

2017-01-07 18:18:59

阅读数:1993

评论数:0

[Hadoop]MapReduce中的Partitioner

A partitioner works like a condition in processing an input dataset. Partition阶段发生在Map阶段之后,Reduce阶段之前。partitioner的个数等于reducer的个数(The number of partit...

2017-01-03 20:39:57

阅读数:754

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭