Hadoop
Hadoop
Lumos`
努力努力再努力
展开
-
《Hadoop权威指南》第三章 Hadoop分布式文件系统
《Hadoop权威指南》第三章 Hadoop分布式文件系统目录前言HDFS的设计HDFS的概念命令行接口Hadoop文件系统Java接口数据流通过distcp并行复制注:《Hadoop权威指南》重点学习摘要笔记1. 前言当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算...原创 2020-05-04 08:24:31 · 568 阅读 · 0 评论 -
《Hadoop权威指南》第二章 关于MapReduce
《Hadoop权威指南》第二章 关于MapReduce目录使用Hadoop来数据分析横向扩展1. 使用Hadoop来数据分析例如,对气象数据集进行处理。1. map和reduce为了充分利用Hadoop提供的并行处理优势,需要将查询表示成MapReduce作业。MapReduce任务过程分成两个处理阶段:map阶段和reduce阶段。每个阶段都以键值对作为输入输出,类型由...原创 2020-04-29 09:42:58 · 422 阅读 · 0 评论 -
Hadoop之InputFormat数据输入详解
Hadoop之InputFormat数据输入详解Job提交流程和切片源码详解FileInputFormat切片机制CombineTextInputFormat切片机制InputFormat接口实现类自定义InputFormat自定义InputFormat案例实操1. Job提交流程和切片源码详解job提交流程源码详解,如下waitForCompletion()sub...原创 2019-06-10 11:40:48 · 1065 阅读 · 0 评论 -
Hadoop之MapTask工作机制
Hadoop之MapTask工作机制目录并行度决定机制MapTask工作机制1. 并行度决定机制问题引出maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,mapTask并行任务是否越多越好呢?MapTask并行度决定机制一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定,如下图所示。2....原创 2019-06-10 16:15:33 · 574 阅读 · 3 评论 -
Hadoop之Shuffle机制详解
Hadoop之Shuffle机制详解目录Shuffle机制Partition分区WritableComparable排序Combiner合并GroupingComparator分组(辅助排序)1. Shuffle机制Mapreduce确保每个reducer的输入都是按key排序的。系统执行排序的过程(即将mapper输出作为输入传给reducer)称为shuffle,如下图...原创 2019-06-10 17:06:53 · 573 阅读 · 0 评论 -
Hadoop之ReduceTask工作机制
Hadoop之ReduceTask工作机制目录设置ReduceTask并行度(个数)注意实验:测试reducetask多少合适ReduceTask工作机制1. 设置ReduceTask并行度(个数)reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置://默认值是1...原创 2019-06-10 17:21:13 · 919 阅读 · 0 评论 -
Hadoop之OutputFormat数据输出详解
Hadoop之OutputFormat数据输出详解目录OutputFormat接口实现类自定义OutputFormat1. OutputFormat接口实现类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。文本输出TextOutputForma...原创 2019-06-10 19:00:03 · 1699 阅读 · 0 评论 -
Hadoop之Join、计数器、数据清洗概述
Hadoop之Join入门目录Reduce joinMap join1. Reduce join原理Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。Reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将...原创 2019-06-10 19:15:17 · 162 阅读 · 0 评论 -
Hadoop之Hadoop数据压缩
Hadoop之Hadoop数据压缩目录概述MR支持的压缩编码Gzip压缩Bzip2压缩Lzo压缩Snappy压缩压缩位置选择压缩参数配置1. 概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花...原创 2019-06-10 21:04:37 · 1647 阅读 · 0 评论 -
Hadoop之Yarn工作机制详解
Hadoop之Yarn工作机制详解目录Yarn概述Yarn基本架构Yarn工作机制作业提交全过程详解1. Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2. Yarn基本架构YARN主要由ResourceManager、NodeManager、...原创 2019-06-11 20:58:27 · 1112 阅读 · 0 评论 -
Hadoop之资源调度器与任务推测执行
Hadoop之资源调度器目录资源调度器概述先进先出调度器(FIFO)容量调度器(Capacity Scheduler)公平调度器(Fair Scheduler)任务的推测执行1. 资源调度器概述目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Sch...原创 2019-06-11 21:21:38 · 444 阅读 · 0 评论 -
Hadoop之Hadoop企业优化(HDFS小文件优化)
Hadoop之Hadoop企业优化目录MapReduce 跑的慢的原因MapReduce优化方法之数据输入MapReduce优化方法之Map阶段MapReduce优化方法之Reduce阶段MapReduce优化方法之I/O传输MapReduce优化方法之数据倾斜问题MapReduce优化方法之常用的调优参数HDFS小文件优化方法1. MapReduce 跑的慢的原因M...原创 2019-06-12 11:38:31 · 427 阅读 · 0 评论 -
Hadoop之MapReduce工作流程
Hadoop之MapReduce工作流程目录流程示意图流程详解注意1. 流程示意图MapReduce工作流程流程示意图,如下图2. 流程详解上面的流程是整个mapreduce最全工作流程,但是shuffle过程只是从第7步开始到第16步结束,具体shuffle过程详解,如下:maptask收集我们的map()方法输出的kv对,放到内存缓冲区中从内存缓冲区不断溢...原创 2019-06-10 09:59:21 · 2019 阅读 · 0 评论 -
Hadoop之Hadoop序列化
Hadoop之Hadoop序列化目录什么是序列化为什么要序列化为什么不用Java的序列化常用数据序列化类型自定义bean对象实现序列化接口(Writable)1. 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。...原创 2019-06-10 09:50:26 · 604 阅读 · 0 评论 -
Hadoop之MapReduce入门
Hadoop之MapReduce概述目录MapReduce定义MapReduce优缺点MapReduce核心思想MapReduce进程MapReduce编程规范MapReduce案例实操1. MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代...原创 2019-06-10 09:29:16 · 215 阅读 · 0 评论 -
Hadoop之MapReduce面试知识复习
Hadoop之MapReduce面试知识复习目录谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?FileInputFormat切片机制在一个运行的Hadoop 任务中,什么是InputSplit?自定义InputFormat流程 Maptask的个数由什么决定?MapTask工作机制ReduceTask工作机制请描述mapReduce有几种排序及排序发生的阶段...原创 2019-06-13 14:29:26 · 1103 阅读 · 0 评论 -
Hadoop之Yarn面试知识复习
Hadoop之Yarn面试知识复习目录简述hadoop1与hadoop2 的架构异同为什么会产生 yarn,它解决了什么问题,有什么优势?Hadoop之Yarn工作机制详解HDFS的数据压缩算法? Hadoop的调度器总结MapReduce 2.0 容错性mapreduce推测执行算法及原理1. 简述hadoop1与hadoop2 的架构异同加入了yarn解决了资源调度...原创 2019-06-13 15:23:34 · 1483 阅读 · 0 评论 -
Hadoop之企业案例分析
Hadoop之企业案例分析目录海量日志数据,提取出某日访问百度次数最多的那个IP有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100 个词有 10 个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。 给定 a、b 两个文件,各存放 50 亿个 url...原创 2019-06-13 20:00:02 · 529 阅读 · 0 评论 -
Hadoop之Hadoop基础知识
Hadoop之Hadoop基础知识复习目录Hadoop是什么Hadoop的优势Hadoop组成大数据技术生态体系1. Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决的是海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈。2. Hadoop的优势1)...原创 2019-06-08 13:11:25 · 503 阅读 · 0 评论 -
Hadoop之Hadoop基础知识面试复习
Hadoop之Hadoop基础知识常问面试题列举几个hadoop生态圈的组件并做简要描述。Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。Hive...原创 2019-06-08 13:30:38 · 720 阅读 · 0 评论 -
Hadoop之HDFS概述
Hadoop之HDFS概述目录HDFS产生背景HDFS概念HDFS优缺点HDFS组成架构1. HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2. HDFS概念HDFS(Hadoo...原创 2019-06-08 16:46:46 · 223 阅读 · 0 评论 -
Hadoop之HDFS常用Shell命令
Hadoop之HDFS常用Shell命令启动Hadoop集群 sbin/start-dfs.sh sbin/start-yarn.sh-help:输出这个命令参数hadoop fs -help rm-ls: 显示目录信息hadoop fs -ls /-mkdir:在hdfs上创建目录hadoop fs -mkdir -p /hadoop-moveFr...原创 2019-06-08 19:36:45 · 580 阅读 · 0 评论 -
Hadoop之HDFS读写数据流程
Hadoop之HDFS读写数据流程目录HDFS写数据流程HDFS读数据流程网络拓扑概念机架感知1. HDFS写数据流程HDFS写数据流程,如下图客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端请求第一个 block上传到哪几个da...原创 2019-06-08 19:49:49 · 697 阅读 · 0 评论 -
Hadoop之NameNode和SecondaryNameNode工作机制详解
Hadoop之NameNode和SecondaryNameNode工作机制详解NN和2NN工作机制NN和2NN工作机制详解Fsimage和Edits解析1. NN和2NN工作机制NN和2NN工作机制,如下图第一阶段:NameNode启动第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。客户...原创 2019-06-08 21:52:14 · 466 阅读 · 0 评论 -
Hadoop之DataNode工作机制
Hadoop之DataNode工作机制目录DataNode工作机制数据完整性掉线时限参数设置1. DataNode工作机制DataNode工作机制如下图一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后,周期性(1小时)的...原创 2019-06-09 09:49:56 · 204 阅读 · 0 评论 -
HDFS-HA自动故障转移工作机制
HDFS-HA自动故障转移工作机制目录HA概述HDFS-HA工作要点HDFS-HA自动故障转移工作机制1. HA概述所谓HA(high available),即高可用(7*24小时不中断服务)。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。Hadoop2.0之前,在HDFS集群中NameNode存在...原创 2019-06-09 10:04:52 · 931 阅读 · 1 评论 -
Hadoop之HDFS面试知识复习
Hadoop之HDFS面试知识复习目录HDFS的存储机制secondary namenode工作机制NameNode与SecondaryNameNode 的区别与联系?hdfs整体架构介绍HAnamenode 是如何工作的?1. HDFS的存储机制已详细总结过,请参考:Hadoop之HDFS读写数据流程2. secondary namenode工作机制已详细总结过,请...原创 2019-06-13 11:40:11 · 358 阅读 · 0 评论