Ying

个人博客:http://smartsi.club/

Hadoop Yarn上的调度器

1. 引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构,其中 ResourceManager 是整个架构的核心组件,负责集群上的资源管理,包括内存、CPU以及集群上的其他资; ApplicationMas...

2018-05-10 09:47:29

阅读数:207

评论数:0

Hadoop Trash回收站使用指南

我们在删除一个文件时,遇到如下问题,提示我们不能删除文件放回回收站:sudo -uxiaosi hadoop fs -rm -r tmp/data_group/test/employee/employee_salary.txt17/12/06 16:34:48 INFO fs.TrashPolic...

2017-12-22 09:37:49

阅读数:563

评论数:0

[Hadoop]Hadoop本地调试

1. Maven依赖dependency> groupId>org.apache.hadoopgroupId> artifactId>hadoop-clientartifactId> version>2.7.2version> de...

2017-06-08 11:57:32

阅读数:702

评论数:0

[Hadoop]数据复制DistCp

1.需求我们项目中需要复制一个大文件,最开始使用的是hadoop cp命令,但是随着文件越来越大,拷贝的时间也水涨船高。下面进行hadoop cp与hadoop distcp拷贝时间上的一个对比。我们将11.9G的文件从data_group/adv/day=20170116下所有文件复制到tmp/...

2017-01-22 13:38:25

阅读数:1439

评论数:0

[Hadoop]MapReduce中的InputSplit

在查看数据块的如何处理之前,我们需要更仔细地了解Hadoop如何存储数据。在Hadoop中,文件由一个一个的记录组成,最终由mapper任务一个一个的处理。例如,示例数据集包含有关1987至2008年间美国境内已完成航班的信息。如果要下载数据集可以打开如下网址: http://stat-compu...

2017-01-11 16:04:21

阅读数:1136

评论数:0

[Hadoop]MapReduce多路径输入与多个输入

1. 多路径输入FileInputFormat是所有使用文件作为其数据源的 InputFormat 实现的基类,它的主要作用是指出作业的输入文件位置。因为作业的输入被设定为一组路径, 这对指定作业输入提供了很强的灵活性。FileInputFormat 提供了四种静态方法来设定 Job 的输入路径:...

2017-01-11 14:33:06

阅读数:2568

评论数:0

[Hadoop]Reducer总是能复用为Combiner?

Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势:Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每...

2017-01-08 13:39:56

阅读数:890

评论数:0

[Hadoop]MapReduce中的Partitioner与Combiner

Partitioners负责划分Maper输出的中间键值对的key,分配中间键值对到不同的Reducer。Maper输出的中间结果交给指定的Partitioner,确保中间结果分发到指定的Reduce任务。在每个Reducer中,键按排序顺序处理(Within each reducer, keys...

2017-01-07 18:18:59

阅读数:1928

评论数:0

[Hadoop]MapReduce中的Partitioner

A partitioner works like a condition in processing an input dataset. Partition阶段发生在Map阶段之后,Reduce阶段之前。partitioner的个数等于reducer的个数(The number of partit...

2017-01-03 20:39:57

阅读数:747

评论数:0

[Hadoop]MapReducer工作过程

1. 从输入到输出一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。在shuffle阶段还会发生copy(复制)和sort(排序)...

2016-12-30 10:28:55

阅读数:4167

评论数:1

[Hadoop]Hadoop Archives

1. 什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part...

2016-12-26 21:19:16

阅读数:907

评论数:0

[Hadoop]Hadoop上Data Locality

Hadoop上的Data Locality是指数据与Mapper任务运行时数据的距离接近程度(Data Locality in Hadoop refers to the“proximity” of the data with respect to the Mapper tasks working ...

2016-12-26 17:47:14

阅读数:1057

评论数:0

[Hadoop]大量小文件问题及解决方案

1. HDFS上的小文件问题小文件是指文件大小明显小于HDFS上块(block)大小(默认64MB)的文件。如果存储小文件,必定会有大量这样的小文件,否则你也不会使用Hadoop(If you’re storing small files, then you probably have lots ...

2016-12-25 15:34:09

阅读数:12114

评论数:3

[Hadoop]输入路径过滤,通配符与PathFilter

1. 丢失文件路径过滤应用场景:我们想查询一个月以来度假的订单数据,但是HDFS中可能因为业务故障,导致某一天的订单数据不存在:FileInputFormat.setInputPaths(job, inputPath);上述代码在遇到路径不存在的时候会报错。所以在设置路径之前需要进行一次判断,判断...

2016-12-21 16:10:58

阅读数:5369

评论数:0

[Hadoop]Hadoop单元测试MRUnit

1. 设置开发环境从(https://repository.apache.org/content/repositories/releases/org/apache/mrunit/mrunit/)下载最新版本的MRUnit jar,例如如果你使用的hadoop版本为1.0.3,则需要下载mrunit...

2016-12-08 20:12:17

阅读数:2104

评论数:0

[Hadoop]MapReduce多输出

FileOutputFormat及其子类产生的文件放在输出目录下。每个reducer一个文件并且文件由分区号命名:part-r-00000,part-r-00001,等等。有时可能要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOutputF...

2016-12-06 14:03:14

阅读数:1503

评论数:0

[Hadoop]Hadoop安装

1. SSH参考博文:[Hadoop]SSH免密码登录以及失败解决方案(http://blog.csdn.net/sunnyyoona/article/details/51689041#t1)2. 下载(1)直接从官网上下载 http://hadoop.apache.org/releases.ht...

2016-12-04 15:19:39

阅读数:851

评论数:1

[Sqoop]Sqoop使用

Sqoop的本质还是一个命令行工具,和HDFS,MapReduce相比,并没有什么高深的理论。我们可以通过sqoop help命令来查看sqoop的命令选项,如下:16/11/13 20:10:17 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usa...

2016-11-14 20:05:10

阅读数:11710

评论数:2

[Sqoop]Sqoop导入与导出

1. 导入实例1.1 登陆数据库查看表xiaosi@Qunar:~$ mysql -u root -pEnter password: Welcome to the MySQL monitor.  Commands end with ; or \g.Your MySQL connection id ...

2016-11-13 19:59:43

阅读数:5104

评论数:0

[Sqoop]Sqoop安装

1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiao...

2016-11-13 16:13:48

阅读数:1698

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭