Hadoop
文章平均质量分 75
Hadoop基础内容
南宫凝忆
这个作者很懒,什么都没留下…
展开
-
MapReduce作业的执行流程、错误处理机制、任务执行
一、MapReduce作业的执行流程MapReduce作业的执行流程:代码编写→作业配置→作业提交→Map任务的分配和执行→处理中间结果→Reduce任务的分配和执行→作业完成。每个任务的执行过程中又包含:输入准备→任务执行→输出结果。MapReduce作业的执行可以分为11个步骤,涉及4个独立的实体。它们在MapReduce执行过程中的主要作用是:客户端(Client):编写MapReduce代码,配置作业,提交作业; JobTracker:初始化作业,分配作业,与TaskTra原创 2022-03-16 23:32:41 · 2720 阅读 · 0 评论 -
MapReduce计算模型、数据流和控制流,Hadoop流的工作原理
一、MapReduce计算模型执行MapReduce任务的机器有两个角色:JobTracker和TaskTracker。JobTracker:管理和调度MapReduce的Job。TaskTracker:执行MapReduce的Job。1、Job在Hadoop中,每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段:Map阶段和Reduce阶段。这两个阶段分别用两个函数来表示,即Map函数和Reduce函数。Map函数接收一个<key, value>形式原创 2022-03-16 11:23:08 · 2813 阅读 · 0 评论 -
HDFS的体系结构和读写数据
一、HDFS体系结构1、副本存放与读取策略副本的存放是HDFS可靠性和性能的关键,HDFS采用一种称为机架感知的策略来改进数据的可靠性、可用性和网络带宽的利用率。在大多数情况下,同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。带宽:固定时间可传输的资料数量,带宽越大越好。HDFS采用的策略就是将副本存放在不同的机架上,这样可以有效防止整个机架失效时数据的丢失。在大多数情况下,副本系数是3,HDFS客户端调用FileSystem对象中的open()函数来读取它需要的数据原创 2022-03-14 16:35:13 · 2070 阅读 · 0 评论 -
Hadoop——HDFS实例
package com.atguigu.hdfs;/*客户端代码常用套路:1、获取一个客户端对象2、执行相关的操作命令3、关闭资源HDFS zookeeper */import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.yarn.webapp.hamlet2.Hamlet;import org.junit.After;import org.原创 2022-03-13 20:01:41 · 2988 阅读 · 0 评论 -
Hadoop——MapReduce
1、处理步骤 MapReduce数据处理分为Split、Map、Shuffle、Reduce,应用程序实现Map和Reduce步骤的逻辑,Split和Shuffle步骤由框架自动完成。(1)Split 在执行任务前,原始数据被分割成若干split,每个split作为一个map任务的输入,在map执行过程中,split会被分解成一个个记录(键/值对)。(2)Map 对于文本文件,默认为文件里的一行是一条记录,一行的内容作为键/值对中的值,从split的起始位置到每行的字节偏移量,是键/值对原创 2022-03-11 17:06:35 · 1936 阅读 · 1 评论 -
Hadoop——HDFS
1.大数据的4V:大、快、多、真2.Hadoop基本组件(1)HDFS分布式文件系统:程序员使用处理大数据集(2)YARN资源调度框架:集群节点的调度工作(3)MapReduce分布式处理框架:分布式读写数据3.HDFS的目标(1)硬件容错:检测硬件错误并从有问题的硬件快速自动恢复(2)流式数据访问:对数据边读取边处理,而不是将整个数据集读取完后再处理(3)支持大数据集(4)简单的一致性模型:文件是一次写多次读模式,文件一旦被创建,对该文件只能执行尾部追加或彻底清除操作原创 2022-03-11 10:34:39 · 581 阅读 · 0 评论