Hadoop
文章平均质量分 60
Hadoop相关技术及详解
Hao_JunJie
这个作者很懒,什么都没留下…
展开
-
Hadoop之MapReducer——>shuffle机制
。。。。原创 2021-04-01 15:28:28 · 162 阅读 · 0 评论 -
Hadoop之MapReduce的MapTask详解
一、前提:我们写的Driver类,提交之后,根据默认的FileInputFormat的getSplit() 方法之后,将切片信息和配置信息还有jar包上传到指定目录之后,yarn根据切片信息,启动相应的MapTask,然后去执行任务。二、通过源码的方式,详解MapTask:下面是MapTask类的run() 方法: @Override public void run(final JobConf job, final TaskUmbilicalProtocol umbilical)原创 2021-04-01 15:18:40 · 9592 阅读 · 1 评论 -
Hadoop之自定义InputFormat
一、前提:无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,系统提供的InputFor就不适用了,就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。二、需求:将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。...原创 2021-03-30 15:04:49 · 8855 阅读 · 0 评论 -
Hadoop之序列化
一、序列化概述:序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储于磁盘和网络传输。反序列化就是把字节序列(或其他数据传输协议),或者是磁盘的持久化数据转换成内存中的对象。二、为什么要序列化:一般来说 "活的" 对象只存在于内存中,关机断电就没了,而且"活的"对象只能由本机进程使用,不能通过网络发送到另一台计算机上,然后序列化可以将"活的" 对象发送到远程计算机上。三、为什么不用java 序列化:java 序列化是一个重量级的序列化框架(serializable)原创 2021-03-26 10:21:42 · 1831 阅读 · 0 评论 -
Hadoop中MapReduce之Job提交和切片信息详解
下图是wordCount驱动类,从源码方式看它是如何进行提交的进入waitForCompletion 方法之后当state为DEFINE 进行submit() 进行提交ensureState(JobState.DEFINE):确保job的状态为DEFINEsetUSerNewAPI(); 使用新的APIconnect() 建立连接:是提交到YARN集群还是Local 如下图:进入connect() 方法返回Cluster对象:return new Cluster.原创 2021-03-25 17:49:46 · 1725 阅读 · 2 评论 -
Hadoop之NLineInputFormat
上图是InputFormat的派生子类关系图,这篇主要讲解FileInputDormat的实现类——>NLineInputFormat由于InputFormat是一个抽象类,不同的实现类,分片机制不同,如下图:NLineInputFormat源码:public class NLineInputFormat extends FileInputFormat<LongWritable, Text> { public static final String LINES_PE..原创 2021-03-25 16:26:39 · 268 阅读 · 0 评论 -
Hadoop之KeyValueTextInputFormat
上图是InputFormat的派生子类关系图,这篇主要讲解FileInputDormat的实现类——>KeyValueTextInputFormat请看KeyValueTextInputFormat的源代码:public class KeyValueTextInputFormat extends FileInputFormat<Text, Text> { public KeyValueTextInputFormat() { } protected ...原创 2021-03-25 16:01:33 · 224 阅读 · 0 评论 -
hadoop之TextInputFormat
打发士大夫原创 2021-03-25 15:22:37 · 768 阅读 · 0 评论 -
hadoop之CombineTextInputFormat
上图是InputFormat的派生子类关系图,由于InputFormat是一个抽象类,不同的实现类,分片机制不同,这篇主要讲解CombineFileInputDormat的实现类——>CombineTextInputFormat一,CombineTextInputFormat切片机制:框架默认使用的TextInputFormat 切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其...原创 2021-03-24 10:59:07 · 793 阅读 · 2 评论 -
自编写RPC通信实例解析HadoopRPC通信原理
(1)在pom 文件中加入相关依赖:<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</version> </dependency> <d..原创 2021-03-22 16:12:44 · 206 阅读 · 0 评论 -
Hadoop之MapReduce相关技术总和
一、MapReduce 概述:1.1MapReduce定义:MapReduce 是一个分布式运算程序的编程框架,是用户基于hadoop的数据分析应用的核心框架。MapReduce 的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个分布式运算程序,并发运行在hadoop 的集群上。1.2 MapReduce 优缺点:优点:(1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行,也就是说你一写一个分原创 2021-03-10 15:19:45 · 323 阅读 · 1 评论 -
azkaban 参数详解
参考 :http://www.manongjc.com/detail/12-afcbaaqegipvvnm.html原创 2021-03-01 14:54:21 · 261 阅读 · 0 评论 -
Hadoop 之 HDFS 详解
一、产生背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更到的操作系统管理的磁盘中,但是管理不方便和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS只是分布式文件管理系统的一种。二、定义:HDFS (Hadoop Distributed File System) ,它是一个文件系统,用来存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。三、使用场景:HDFS适合一次写入,多原创 2021-03-01 14:51:16 · 11408 阅读 · 3 评论