Hadoop
文章平均质量分 72
东天里的冬天
Java技术专家,CSDN不常看,有问题可以通过微信公众号“假装正经的程序员”进行沟通
展开
-
Hadoop入门——初识Hadoop
推荐一个微信商城,扫码即可购买,性价比超高,程序员必备店主就是博主,有任何问题可随时通过商城内的微信与博主取得联系一.hadoop是什么Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、...原创 2018-07-18 13:55:59 · 131019 阅读 · 17 评论 -
Hadoop入门——MapReduce中多个数据源协调处理
一.背景当数据来源不同的时候,比如用户表在MYSQL数据库中,而销售表在HDFS中,我们可以启动多个作业来依次处理这些数据源。 二:技术实现#需求#用户表user在MYSQL数据库中,数据如下:1 liaozhongmin2 lavimer3 liaozemin#销售表user_data在HDFS中,数据如下:1 122 282 363 88#...转载 2018-08-13 16:36:03 · 1769 阅读 · 0 评论 -
Hadoop入门——MapReduce自定义RecordReader
一.背景RecordReader表示以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类,系统默认的RecordReader是LineRecordReader,它是TextInputFormat对应的RecordReader;而SequenceFileInputFormat对应的RecordReader是SequenceFileRecordReader。LineR...转载 2018-08-13 14:35:36 · 1381 阅读 · 0 评论 -
Hadoop入门——MapReduce表连接操作之Map端join
一.背景MapReduce提供了表连接操作其中包括Map端join(适合大表关联小表,小表放内存)、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗资源。 二.技术实现基本思路(1):需要jo...转载 2018-08-13 14:14:11 · 1245 阅读 · 0 评论 -
Hadoop入门——MapReduce基于CombineFileInputFormat处理海量小文件
一.简述在使用Hadoop处理海量小文件的应用场景中,如果你选择使用CombineFileInputFormat,而且你是第一次使用,可能你会感到有点迷惑。虽然,从这个处理方案的思想上很容易理解,但是可能会遇到这样那样的问题。使用CombineFileInputFormat作为Map任务的输入规格描述,首先需要实现一个自定义的RecordReader。CombineFileInputFor...转载 2018-08-13 11:51:14 · 922 阅读 · 0 评论 -
Hadoop入门——MapReduce对于海量小文件的多种解决方案
一.概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1千万个小文件,每个文件占用一个block,则NameNode大约需要2G空间。如果存储一亿个文件,则NameNode需要20G空间。这样NameNode内存容量严重...转载 2018-08-13 11:34:34 · 1537 阅读 · 0 评论 -
Hadoop入门——汇总
一.简介初识hadoop 二.环境搭建配置文件说明伪分布式环境的搭建 三.MapReduceMapReduce基础概念序列化与Writable接口MapReduce的输入与输出MapReduce中的压缩程序的几种运行提交模式自定义分区PartitionerMapReduce基于CombineFileInputFormat处理海量小文件Ma...原创 2018-08-13 10:36:11 · 2089 阅读 · 0 评论 -
Hadoop入门——程序的几种提交运行模式
本地运行模式1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata) 2/在linux的ecl...原创 2018-08-13 10:29:53 · 636 阅读 · 0 评论 -
Hadoop入门——链式MapReduce(ChainMapper和ChainReducer)
一.背景Hadoop2.0开始MapReduce作业支持链式处理,类似于富士康生产苹果手机的流水线,每一个阶段都有特定的任务要处理,比如提供原配件——>组装——打印出厂日期,等等。通过这样进一步的分工,从而提高了生成效率,我们Hadoop中的链式MapReduce也是如此,这些Mapper可以像水流一样,一级一级向后处理,有点类似于Linux的管道。前一个Mapper的输出结果直接可以作...转载 2018-08-14 20:12:28 · 1260 阅读 · 0 评论 -
Hadoop入门——MapReduce中的压缩
作为输入当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出当mapreduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapped.output.compression.codec为想要使用的codec的类名就可以了,当然你可以在代码中指定,通过调用FileOutputFo...转载 2018-08-10 15:41:35 · 1158 阅读 · 0 评论 -
hadoop入门——配置文件说明
1.coer-site.xml<configuration> <!--【这里的值指的是默认的HDFS路径。这里只有一个HDFS集群,在这里指定!该值来自于hdfs-site.xml中的配置】--> <property> <name>fs.defaultFS</name> ...转载 2018-07-31 11:14:38 · 1626 阅读 · 0 评论 -
Hadoop入门——MapReduce的输入与输出
一.MapReduce的输入处理类(1)FileInputFormatFileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。(2)InputFormatInputForm...原创 2018-07-24 15:25:24 · 1876 阅读 · 0 评论 -
Hadoop入门——序列化与Writable接口
一.序列化概念序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。Java序列化(java.io.Serializable) 二.Hadoop序列化的特点1.紧凑:高效使用存储空间;2.快速:读写数据的额外开销小;3.可扩展:可透明地读取老格式的数据;4.互操作:支持多语言...原创 2018-07-24 14:59:43 · 1082 阅读 · 0 评论 -
Hadoop入门——MapReduce
(1)简介MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。(2)原理 (3)执行步骤1. map任务处理1.1 读取输入文件内...原创 2018-07-24 14:01:51 · 1265 阅读 · 0 评论 -
Hadoop入门——伪分布式环境的搭建
一.配置虚拟机设置静态ip,此处为192.168.159.130/etc/hosts中配置如下:192.168.159.130 hdserver1192.168.159.131 hdserver2二.安装jdk等基础环境三.安装Hadoop1.上传hadoop安装包2.解压hadoop安装包mkdir /cloud#解压到/cloud/目录下tar -z...原创 2018-07-18 14:21:08 · 1190 阅读 · 0 评论 -
Hadoop入门——自定义分区Partitioner
一.背景为了使得MapReduce计算后的结果显示更加人性化,Hadoop提供了分区的功能,可以使得MapReduce计算结果输出到不同的分区中,方便查看。Hadoop提供的Partitioner组件可以让Map对Key进行分区,从而可以根据不同key来分发到不同的reduce中去处理,我们可以自定义key的分发规则,如数据文件包含不同的省份,而输出的要求是每个省份对应一个文件。 二:...转载 2018-08-13 17:55:50 · 699 阅读 · 0 评论