hadoop
liuhong1123
对技术始终保持着强烈的好奇心目前致力于HDFS的研究与改造之前研究过openstackGlusterFS等存储系统
展开
-
MapReduce源码分析总结
Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(processing and generating large data sets)的相关的实现。用户定义转载 2012-11-04 14:42:28 · 704 阅读 · 0 评论 -
HADOOP:MapReduce源码分析总结
参考: 1 caibinbupt的源代码分析http://caibinbupt.javaeye.com2 coderplay的avaeye http://coderplay.javaeye.com/blog/295097http://coderplay.javaeye.com/blog/318602 3 Javen-Studio 咖啡小屋http://www.cppblog转载 2012-11-04 14:44:23 · 864 阅读 · 0 评论 -
Hadoop学习总结之四:Map-Reduce的过程解析
一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc转载 2012-11-04 15:38:00 · 593 阅读 · 0 评论 -
HADOOP:MapReduce作业运行机制
一,作业的提交Job.waitForCompletion(true): 1)此方法调用submit(). 在Submit()方法里面连接JobTracker,即生成一个内部JobSummitter(实际上是new JobClient(),同时生成一个JobSubmissionProtocol接口(JobTracker实现了此接口)对象jobSubmitClient(是它连接或对应着转载 2012-11-04 22:29:00 · 909 阅读 · 0 评论 -
京东自主研发Hadoop高可用解决方案
原文地址:http://net.chinabyte.com/110/12476610.shtml 记者近日获悉,京东商城在Hadoop高可用方面的研究,取得了重大成果。在Hadoop集群运维方面,一直以来都有这样一个难题困扰着业界:线上集群,由于NameNode的异常,极有可能导致Hadoop集群服务中断;NameNode软硬件系统定期维护、升级也一直是让人头疼的问题——整个集群可转载 2012-11-27 14:31:20 · 1393 阅读 · 3 评论 -
HDFS:不同版本评比分析
1、版本功能对比版本名称版本时间功能名称说明0.20.x2009.4.22-2011.10.17目前线上基本功能Avatarnode,cloudera3均以该版本作为基础版本0.23.x2011/11/11-现在FederationWebH原创 2012-12-22 10:08:04 · 2461 阅读 · 0 评论 -
我眼中的hadoop(5-7)
术业有专攻5.1.HDFS成也大文件 Hadoop主要处理的是大文件,从而HDFS设计的初衷也是存储大文件,及其计算过程中产生的中间文件,以满足mapreduce快速地读写文件的要求,当然前提是机房网络速度给力。为了满足需求,HDFS进行了如下设计:1.流式写文件,对于上传任何一个文件,Client向一台DN写数据块,再由DN向其他DN写数据块,而不是一个客户端原创 2013-11-25 15:51:34 · 2112 阅读 · 0 评论 -
我眼中的hadoop(1-4)
前言 1-3写到了hadoop的诞生,通过何种方式发展壮大,及其为什么没有被其他系统取代,之所以写这部分想梳理一下hadoop为什么不是别人而是由DC来完成,同时DC通过何种方式将自己的产品发展壮大,最后变得不可取代; 4写到了hadoop在国内的发展;5-6写到为什么没有一个可以解决所有问题的存储系统,及其HDFS的优点缺点,希望通过这部分梳理清楚在任何行业都没有原创 2013-11-25 15:47:31 · 1426 阅读 · 0 评论