Hadoop
温一杯酒
这个作者很懒,什么都没留下…
展开
-
Hadoop——生态系统
1. hadoop是什么?Hadoop是一个分布式存储和计算平台。主要解决海量数据的存储与分析计算问题2. hadoop特点1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2)高扩展性:在集群间分配任务数据,可方便的扩展数以干计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理...原创 2019-05-02 17:18:32 · 266 阅读 · 0 评论 -
Hadoop——HDFS组件
1 简介 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块,副本存放,元数据1.1定义HDFS(Hadoop Distibuted File Systerm)它是一个文件系统,用于...原创 2019-05-03 10:26:47 · 433 阅读 · 0 评论 -
Hadoop——YARN组件
1 YARN架构1.1 旧的MapReduce架构JobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错)TaskTracker: 加载或关闭任务,定时报告认为状态此架构会有以下问题:JobTracker是MapReduce的集中处理点,存在单点故障JobTracker完成了太多的任务,造成了过多的资源消耗,当MapRe...原创 2019-05-03 11:09:10 · 469 阅读 · 0 评论 -
Hadoop——MapReduce组件(一)概述
1 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发基于"Hadoop的数据分析应用"的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2优缺点优点MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,...原创 2019-05-03 16:25:14 · 1106 阅读 · 0 评论 -
Hadoop——MapReduce组件(二)框架原理
1 InputFormat数据输入1.1 切片与MapTask并行度决定机制MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。MapTask并行度决定机制数据块: Block是HDFS物理上把数据分成一块一块。**数据切片:**数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。1)一个Job的Map阶段并行度由客户端在提交J...原创 2019-05-04 10:34:07 · 244 阅读 · 0 评论 -
Hadoop——常见优化
1 MapReduce优化MapReduce 程序效率的瓶颈在于两点:计算机性能CPU、内存、磁盘健康、网络I/O操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spi次数过多(7)Merge次数过多等。MapReduce优化方法主要从六个方面考虑:数据输入...原创 2019-05-04 11:11:22 · 4028 阅读 · 0 评论 -
hadoop——简单案例
TopN案例1编写FlowBean类public class FlowBean implements WritableComparable<FlowBean>{ private long upFlow; private long downFlow; private long sumFlow; public FlowBean() { super(); }...原创 2019-05-04 15:26:46 · 1116 阅读 · 0 评论 -
Hadoop2.0 HA集群搭建步骤
Hadoop2.0 HA集群搭建步骤转载 2019-03-21 20:52:28 · 82 阅读 · 0 评论