Hadoop源码解析
文章平均质量分 93
c929833623lvcha
这个作者很懒,什么都没留下…
展开
-
HadoopHDFS源码解析
HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战。我们BI团队作为数据分析团队,对于数据的存储有着非常高的要求,不仅需要高可靠及高吞吐量,还必须满足通过不断水平扩展来满足日益增长的业务数据,当前HDFS很好的满足了我们对于大规模数据存储的要求。原创 2015-10-11 21:26:29 · 997 阅读 · 0 评论 -
HadoopRPC源码解析
Hadoop是一个大数据处理平台,目前在大数据领域应用也非常广泛,刚好最近我们BI组在进行把底层数据仓库迁移到Hadoop平台,所以在工作之余开始去深入了解下hadoop内部实现以更好地应用它,在遇到问题的时候有更好的解决思路。本篇分享先介绍Hadoop领域中RPC框架的实现原理,后续会继续分析HDFS及MapReduce及Hive实现原理跟大家分享(hadoop版本1.0,JDK版本1.6)。原创 2015-10-11 21:20:02 · 3461 阅读 · 0 评论 -
HadoopMapReduce源码解析
Hadoop是一个大数据处理平台,目前在大数据领域应用也非常广泛,刚好最近我们BI组在进行把底层数据仓库迁移到Hadoop平台并且当前BI的数据平台已经深度依赖Hadoop平台,所以在工作之余开始去深入了解下Hadoop内部实现以更好地应用它,在遇到问题的时候有更好的解决思路。本文详细介绍了Hadoop领域中分布式离线计算框架MapReduce的原理及源码分析。原创 2015-10-11 21:27:28 · 867 阅读 · 0 评论 -
Hadoop1.X 与 Hadoop2.X区别及改进
一:Haddop版本介绍0.20.x版本最后演化成了现在的1.0.x版本0.23.x版本最后演化成了现在的2.x版本hadoop 1.0 指的是1.x(0.20.x),0.21,0.22hadoop 2.0 指的是2.x,0.23.xCDH3,CDH4分别对应了hadoop1.0 hadoop2.0二、Hadoop1.X与Hadoop2.X区原创 2017-06-13 09:59:49 · 1187 阅读 · 4 评论 -
MapReduce Input Split(输入分/切片)详解
看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。先看一下这个图 输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。Hadoop 2...转载 2018-07-20 14:28:28 · 2072 阅读 · 0 评论