- 博客(3)
- 资源 (10)
- 收藏
- 关注
原创 HadoopMapReduce源码解析
Hadoop是一个大数据处理平台,目前在大数据领域应用也非常广泛,刚好最近我们BI组在进行把底层数据仓库迁移到Hadoop平台并且当前BI的数据平台已经深度依赖Hadoop平台,所以在工作之余开始去深入了解下Hadoop内部实现以更好地应用它,在遇到问题的时候有更好的解决思路。本文详细介绍了Hadoop领域中分布式离线计算框架MapReduce的原理及源码分析。
2015-10-11 21:27:28 867
原创 HadoopHDFS源码解析
HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战。我们BI团队作为数据分析团队,对于数据的存储有着非常高的要求,不仅需要高可靠及高吞吐量,还必须满足通过不断水平扩展来满足日益增长的业务数据,当前HDFS很好的满足了我们对于大规模数据存储的要求。
2015-10-11 21:26:29 997
原创 HadoopRPC源码解析
Hadoop是一个大数据处理平台,目前在大数据领域应用也非常广泛,刚好最近我们BI组在进行把底层数据仓库迁移到Hadoop平台,所以在工作之余开始去深入了解下hadoop内部实现以更好地应用它,在遇到问题的时候有更好的解决思路。本篇分享先介绍Hadoop领域中RPC框架的实现原理,后续会继续分析HDFS及MapReduce及Hive实现原理跟大家分享(hadoop版本1.0,JDK版本1.6)。
2015-10-11 21:20:02 3461
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人