Ying

个人博客:http://smartsi.club/

[Hadoop]MapReducer工作过程

1. 从输入到输出一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。在shuffle阶段还会发生copy(复制)和sort(排序)...

2016-12-30 10:28:55

阅读数:5072

评论数:1

[Hadoop]Hadoop Archives

1. 什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part...

2016-12-26 21:19:16

阅读数:971

评论数:0

[Hadoop]Hadoop上Data Locality

Hadoop上的Data Locality是指数据与Mapper任务运行时数据的距离接近程度(Data Locality in Hadoop refers to the“proximity” of the data with respect to the Mapper tasks working ...

2016-12-26 17:47:14

阅读数:1221

评论数:0

[Hadoop]大量小文件问题及解决方案

1. HDFS上的小文件问题小文件是指文件大小明显小于HDFS上块(block)大小(默认64MB)的文件。如果存储小文件,必定会有大量这样的小文件,否则你也不会使用Hadoop(If you’re storing small files, then you probably have lots ...

2016-12-25 15:34:09

阅读数:14765

评论数:3

[Hadoop]输入路径过滤,通配符与PathFilter

1. 丢失文件路径过滤应用场景:我们想查询一个月以来度假的订单数据,但是HDFS中可能因为业务故障,导致某一天的订单数据不存在:FileInputFormat.setInputPaths(job, inputPath);上述代码在遇到路径不存在的时候会报错。所以在设置路径之前需要进行一次判断,判断...

2016-12-21 16:10:58

阅读数:6250

评论数:1

[Hadoop]Hadoop单元测试MRUnit

1. 设置开发环境从(https://repository.apache.org/content/repositories/releases/org/apache/mrunit/mrunit/)下载最新版本的MRUnit jar,例如如果你使用的hadoop版本为1.0.3,则需要下载mrunit...

2016-12-08 20:12:17

阅读数:2500

评论数:0

[Hadoop]MapReduce多输出

FileOutputFormat及其子类产生的文件放在输出目录下。每个reducer一个文件并且文件由分区号命名:part-r-00000,part-r-00001,等等。有时可能要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOutputF...

2016-12-06 14:03:14

阅读数:1803

评论数:0

[HBase]HBase安装

1. 启动Hadoop如果没有安装Hadoop,则查看博文:http://blog.csdn.net/sunnyyoona/article/details/53454430启动Hadoop并查看Hadoop版本:xiaosi@yoona:~/opt/hadoop-2.7.3$ sbin/start...

2016-12-04 20:59:28

阅读数:784

评论数:0

[Hive]Hive安装

1. 下载可以从http://hive.apache.org/downloads.html下载你想要的版本,在这我们使用的是2.1.0版本2. 解压把下载好的文件解压到~/opt目录下:xiaosi@yoona:~$ tar -zxvf apache-hive-2.1.0-bin.tar.gz -...

2016-12-04 17:26:37

阅读数:933

评论数:0

[Hadoop]Hadoop安装

1. SSH参考博文:[Hadoop]SSH免密码登录以及失败解决方案(http://blog.csdn.net/sunnyyoona/article/details/51689041#t1)2. 下载(1)直接从官网上下载 http://hadoop.apache.org/releases.ht...

2016-12-04 15:19:39

阅读数:892

评论数:1

提示
确定要删除当前文章?
取消 删除