自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (6)
  • 收藏
  • 关注

转载 使用JobControl管理mapreduce多job依赖

当MapReduce中作业不止一个,如果管理这些作业按照顺序执行,主要考虑是否有个线性的作业链或有向无环图(DAG)对于线性链表最简单的就是一个接一个的运行作业,对于比线性链表更复杂的结构,有相关的类库可以帮助你合理安排工作流,最简单的就是org.apache.hadoop.mapred.jobcontrol包中的JobControl类,JobControl实例代表一个作业的运行图,可以加入作

2017-05-08 17:25:02 685

原创 MapReduce基础

MapReduce分布式计算框架分布式计算:移动计算,而不是移动数据MapReduce的split大小:max(min.split,min(max.split,block))Mapper:把复杂任务分解为多个简单的任务执行简单任务:1)数据或计算规模缩小2)就近计算,即会被分配倒存放了所需数据的节点进行计算3)这些小任务可以并行计算,彼此之间没有依赖关系ma

2017-05-08 17:19:04 340

转载 Hadoop2.x: HA

HDFS1.x存在问题:NameNode单点故障,压力过大内存受限,影响系统扩展MapReduce缺点:JobTracker容易引起单点故障JobTracker既要负责资源管理,又要进行作业调度当mapreduce job非常多的时候,会造成很大的内存开销,在Tasktracker端,以mapreduce task的数目作为资源的表示过于简单,如果两个大内存消耗的t

2017-05-08 16:45:51 498

原创 Hadoop IO

数据完整性:HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和,针对每个有io.bytes.per.checksum指定字节的数据计算校验和datanode负责在收到数据后存储该数据及验证校验和客户端讲数据及其检验和发送到由一系列的datanode组成的管线(pipeline),管线中最后一个datanode负责验证校验和每个datanode均持久保存一个用于验

2017-05-08 16:05:53 291

原创 hadoop1.x:hdfs

HDFS:Hadoop Distributed File System分布式存储系统,提供了高可靠、高扩展性和高吞吐率的数据存储服务HDFS优点:1.高容错性:数据自动保存多个副本;副本丢失后,自动恢复2.适合批处理:移动计算而非数据,数据位置暴露给计算框架3.适合大数据处理4.可构建在廉价的机器上:通过多副本提高可靠性;提供了容错和恢复机制HDFS缺点

2017-05-08 15:50:34 459

白话经典算法之七大排序

白话经典算法之七大排序

2016-06-05

activemq中文介绍

activemq中文介绍,消息中间件,activemq中文介绍,消息中间件

2014-10-25

Eclipse下使用SVN版本控制

Eclipse下使用SVN版本控制

2014-06-11

JMS与Spring之二(用message listener container异步收发消息)

JMS与Spring之二(用message listener container异步收发消息)

2014-06-11

JMS与Spring之一(用JmsTemplate同步收发消息)

JMS与Spring之一(用JmsTemplate同步收发消息)

2014-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除