东天里的冬天

菜鸟成长记

Hadoop入门——链式MapReduce(ChainMapper和ChainReducer)

一.背景 Hadoop2.0开始MapReduce作业支持链式处理,类似于富士康生产苹果手机的流水线,每一个阶段都有特定的任务要处理,比如提供原配件——>组装——打印出厂日期,等等。通过这样进一步的分工,从而提高了生成效率,我们Hadoop中的链式MapReduce也是如此...

2018-08-14 20:12:28

阅读数 252

评论数 0

Hadoop入门——自定义分区Partitioner

一.背景 为了使得MapReduce计算后的结果显示更加人性化,Hadoop提供了分区的功能,可以使得MapReduce计算结果输出到不同的分区中,方便查看。Hadoop提供的Partitioner组件可以让Map对Key进行分区,从而可以根据不同key来分发到不同的reduce中去处理,我们可...

2018-08-13 17:55:50

阅读数 169

评论数 0

Hadoop入门——MapReduce中多个数据源协调处理

一.背景 当数据来源不同的时候,比如用户表在MYSQL数据库中,而销售表在HDFS中,我们可以启动多个作业来依次处理这些数据源。   二:技术实现 #需求 #用户表user在MYSQL数据库中,数据如下: 1 liaozhongmin 2 lavimer 3 liaozemin ...

2018-08-13 16:36:03

阅读数 565

评论数 0

Hadoop入门——MapReduce自定义RecordReader

一.背景 RecordReader表示以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类,系统默认的RecordReader是LineRecordReader,它是TextInputFormat对应的RecordReader;而SequenceFileInputF...

2018-08-13 14:35:36

阅读数 132

评论数 0

Hadoop入门——MapReduce表连接操作之Map端join

一.背景 MapReduce提供了表连接操作其中包括Map端join(适合大表关联小表,小表放内存)、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是...

2018-08-13 14:14:11

阅读数 198

评论数 0

Hadoop入门——MapReduce基于CombineFileInputFormat处理海量小文件

一.简述 在使用Hadoop处理海量小文件的应用场景中,如果你选择使用CombineFileInputFormat,而且你是第一次使用,可能你会感到有点迷惑。虽然,从这个处理方案的思想上很容易理解,但是可能会遇到这样那样的问题。 使用CombineFileInputFormat作为Map任务的输...

2018-08-13 11:51:14

阅读数 286

评论数 0

Hadoop入门——MapReduce对于海量小文件的多种解决方案

一.概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1千万个小文件,每个文件占用一个block,则NameNode大...

2018-08-13 11:34:34

阅读数 440

评论数 0

Hadoop入门——汇总

一.简介 初识hadoop   二.环境搭建 配置文件说明 伪分布式环境的搭建   三.MapReduce MapReduce基础概念 序列化与Writable接口 MapReduce的输入与输出 MapReduce中的压缩 程序的几种运行提交模式 自定义分区Partit...

2018-08-13 10:36:11

阅读数 527

评论数 0

Hadoop入门——程序的几种提交运行模式

本地运行模式 1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行       ----输入输出数据可以放在本地路径下(c:/wc/srcdata/)       ----输入输出数据也可以放在hdfs中(hdfs://wee...

2018-08-13 10:29:53

阅读数 213

评论数 0

Hadoop入门——MapReduce中的压缩

作为输入 当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。 作为输出 当mapreduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapped.output.compression.cod...

2018-08-10 15:41:35

阅读数 168

评论数 0

hadoop入门——配置文件说明

1.coer-site.xml <configuration> <!--【这里的值指的是默认的HDFS路径。这里只有一个HDFS集群,在这里指定!该值来自于hdfs-site.xml中的配置】--> ...

2018-07-31 11:14:38

阅读数 538

评论数 0

Hadoop入门——MapReduce的输入与输出

一.MapReduce的输入处理类 (1)FileInputFormat FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子...

2018-07-24 15:25:24

阅读数 223

评论数 0

Hadoop入门——序列化与Writable接口

一.序列化概念 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 Java序列化(java.io.Serializable)   二.Hadoop序列化的特点 1.紧凑:高效使用存储空...

2018-07-24 14:59:43

阅读数 130

评论数 0

Hadoop入门——MapReduce

  (1)简介 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 这两个函数的形参是key、value对,表示函数...

2018-07-24 14:01:51

阅读数 239

评论数 0

Hadoop入门——伪分布式环境的搭建

一.配置虚拟机 设置静态ip,此处为192.168.159.130 /etc/hosts中配置如下: 192.168.159.130 hdserver1 192.168.159.131 hdserver2 二.安装jdk等基础环境 三.安装Hadoop 1.上传hadoop安装包 ...

2018-07-18 14:21:08

阅读数 264

评论数 0

Hadoop入门——初识Hadoop

一.hadoop是什么 Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hado...

2018-07-18 13:55:59

阅读数 5657

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭