2017年05月_lvhuiyin

09月 08月 07月 05月

转载使用JobControl管理mapreduce多job依赖

当MapReduce中作业不止一个，如果管理这些作业按照顺序执行，主要考虑是否有个线性的作业链或有向无环图（DAG）对于线性链表最简单的就是一个接一个的运行作业，对于比线性链表更复杂的结构，有相关的类库可以帮助你合理安排工作流，最简单的就是org.apache.hadoop.mapred.jobcontrol包中的JobControl类，JobControl实例代表一个作业的运行图，可以加入作

2017-05-08 17:25:02 685

原创 MapReduce基础

MapReduce分布式计算框架分布式计算：移动计算，而不是移动数据MapReduce的split大小：max(min.split,min(max.split,block))Mapper：把复杂任务分解为多个简单的任务执行简单任务：1）数据或计算规模缩小2）就近计算，即会被分配倒存放了所需数据的节点进行计算3）这些小任务可以并行计算，彼此之间没有依赖关系ma

2017-05-08 17:19:04 340

转载 Hadoop2.x： HA

HDFS1.x存在问题：NameNode单点故障，压力过大内存受限，影响系统扩展MapReduce缺点：JobTracker容易引起单点故障JobTracker既要负责资源管理，又要进行作业调度当mapreduce job非常多的时候，会造成很大的内存开销，在Tasktracker端，以mapreduce task的数目作为资源的表示过于简单，如果两个大内存消耗的t

2017-05-08 16:45:51 498

原创 Hadoop IO

数据完整性：HDFS会对写入的所有数据计算校验和，并在读取数据时验证校验和，针对每个有io.bytes.per.checksum指定字节的数据计算校验和datanode负责在收到数据后存储该数据及验证校验和客户端讲数据及其检验和发送到由一系列的datanode组成的管线（pipeline），管线中最后一个datanode负责验证校验和每个datanode均持久保存一个用于验

2017-05-08 16:05:53 291

原创 hadoop1.x：hdfs

HDFS：Hadoop Distributed File System分布式存储系统，提供了高可靠、高扩展性和高吞吐率的数据存储服务HDFS优点：1.高容错性：数据自动保存多个副本；副本丢失后，自动恢复2.适合批处理：移动计算而非数据，数据位置暴露给计算框架3.适合大数据处理4.可构建在廉价的机器上：通过多副本提高可靠性；提供了容错和恢复机制HDFS缺点

2017-05-08 15:50:34 459