![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 79
lvhuiyin
善于钻研新技术,乐观进取
展开
-
hadoop1.x:hdfs
HDFS:Hadoop Distributed File System分布式存储系统,提供了高可靠、高扩展性和高吞吐率的数据存储服务HDFS优点:1.高容错性:数据自动保存多个副本;副本丢失后,自动恢复2.适合批处理:移动计算而非数据,数据位置暴露给计算框架3.适合大数据处理4.可构建在廉价的机器上:通过多副本提高可靠性;提供了容错和恢复机制HDFS缺点原创 2017-05-08 15:50:34 · 474 阅读 · 0 评论 -
Hadoop IO
数据完整性:HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和,针对每个有io.bytes.per.checksum指定字节的数据计算校验和datanode负责在收到数据后存储该数据及验证校验和客户端讲数据及其检验和发送到由一系列的datanode组成的管线(pipeline),管线中最后一个datanode负责验证校验和每个datanode均持久保存一个用于验原创 2017-05-08 16:05:53 · 295 阅读 · 0 评论 -
Hadoop2.x: HA
HDFS1.x存在问题:NameNode单点故障,压力过大内存受限,影响系统扩展MapReduce缺点:JobTracker容易引起单点故障JobTracker既要负责资源管理,又要进行作业调度当mapreduce job非常多的时候,会造成很大的内存开销,在Tasktracker端,以mapreduce task的数目作为资源的表示过于简单,如果两个大内存消耗的t转载 2017-05-08 16:45:51 · 509 阅读 · 0 评论 -
MapReduce基础
MapReduce分布式计算框架分布式计算:移动计算,而不是移动数据MapReduce的split大小:max(min.split,min(max.split,block))Mapper:把复杂任务分解为多个简单的任务执行简单任务:1)数据或计算规模缩小2)就近计算,即会被分配倒存放了所需数据的节点进行计算3)这些小任务可以并行计算,彼此之间没有依赖关系ma原创 2017-05-08 17:19:04 · 346 阅读 · 0 评论 -
使用JobControl管理mapreduce多job依赖
当MapReduce中作业不止一个,如果管理这些作业按照顺序执行,主要考虑是否有个线性的作业链或有向无环图(DAG)对于线性链表最简单的就是一个接一个的运行作业,对于比线性链表更复杂的结构,有相关的类库可以帮助你合理安排工作流,最简单的就是org.apache.hadoop.mapred.jobcontrol包中的JobControl类,JobControl实例代表一个作业的运行图,可以加入作转载 2017-05-08 17:25:02 · 694 阅读 · 0 评论 -
pig入门
Pig是一种操作大规模数据集的脚本语言,是在HDFS和MapReduce之上的数据流处理语言,将数据流翻译成多个MR函数。 Pig包括两部分:PigLatin:用于描述数据流的语言用于运行pig Latin程序的执行环境 PigLatin程序有一系列的operation和transformation组成,每个操作或变换对属于进行数据处理,将这些操作转换为一系列的MapRed转载 2017-07-17 12:18:18 · 771 阅读 · 0 评论 -
Oozie学习笔记
Oozie:Hadoop平台开源的工作流调度引擎,管理Hadoop作业,由server和client两个组件组成运行java servlet的web程序官网:https://oozie.apache.org/1.特点:1)统一调度Hadoop系统中的mr任务启动,hdfs操作,shell调度,hive操作2)一组任务使用DAG来表示3)复杂的依赖关系,时间触发,事件原创 2017-07-23 19:30:25 · 724 阅读 · 0 评论 -
impala 学习笔记
部分内容摘自:https://my.oschina.net/weiqingbin/blog/1926121.impala特点:1)基于内存进行计算,能够对PB级数据进行交互式实时查询、分析2)无需转换为MapReduce,直接读取HDFS数据3)C++编写,LLVM编译运行4)兼容HiveSQL5)兼容数据仓库的特性,可对hive数据直接做数据分析6)支持Data转载 2017-07-23 20:10:13 · 1429 阅读 · 0 评论