Hadoop技术
文章平均质量分 89
择思
专注技术积累
展开
-
Hadoop学习杂记(一)
这些文章都是我在学习Hadoop源码时的一些收获,没有特定的顺序,看到哪里就写到哪里,主要为了做论文服务。Hadoop中的快速排序快速排序的实现位于org.apache.hadoop.util.QuickSort类。代码分析:if (r-p for ( int i = p; i for (int j = i原创 2013-08-31 22:15:46 · 1493 阅读 · 0 评论 -
MapReduce调度与执行原理之任务调度(续)
前言:本文旨在理清在Hadoop中一个MapReduce作业(Job)在提交到框架后的整个生命周期过程,权作总结和日后参考,如有问题,请不吝赐教。本文不涉及Hadoop的架构设计,如有兴趣请参考相关书籍和文献。在梳理过程中,我对一些感兴趣的源码也会逐行研究学习,以期强化基础。作者:Jaytalent开始日期:2013年9月9日参考资料:【1】《Hadoop技术内幕--深入解析MapRe原创 2013-09-15 17:56:24 · 3688 阅读 · 1 评论 -
MapReduce调度与执行原理之任务执行(一)
前言:本文旨在理清在Hadoop中一个MapReduce作业(Job)在提交到框架后的整个生命周期过程,权作总结和日后参考,如有问题,请不吝赐教。本文不涉及Hadoop的架构设计,如有兴趣请参考相关书籍和文献。在梳理过程中,我对一些感兴趣的源码也会逐行研究学习,以期强化基础。作者:Jaytalent开始日期:2013年9月9日参考资料:【1】《Hadoop技术内幕--深入解析MapRe原创 2014-02-13 21:47:34 · 3469 阅读 · 0 评论 -
MapReduce多用户任务调度器——容量调度器(Capacity Scheduler)原理和源码研究
前言:为了研究需要,将Capacity Scheduler和Fair Scheduler的原理和代码进行学习,用两篇文章作为记录。如有理解错误之处,欢迎批评指正。容量调度器(Capacity Scheduler)是Yahoo公司开发的多用户调度器。多用户调度器的使用场景很多,根据资料1的说法,Hadoop集群的用户量越来越大,不同用户提交的应用程序具有不同的服务质量要求(QoS):1. 批原创 2013-10-07 20:22:49 · 5476 阅读 · 0 评论 -
MapReduce调度与执行原理之任务调度
前言:本文旨在理清在Hadoop中一个MapReduce作业(Job)在提交到框架后的整个生命周期过程,权作总结和日后参考,如有问题,请不吝赐教。本文不涉及Hadoop的架构设计,如有兴趣请参考相关书籍和文献。在梳理过程中,我对一些感兴趣的源码也会逐行研究学习,以期强化基础。作者:Jaytalent开始日期:2013年9月9日参考资料:【1】《Hadoop技术内幕--深入解析MapRe原创 2013-09-13 16:45:17 · 6391 阅读 · 0 评论 -
MapReduce调度与执行原理之作业初始化
前言:本文旨在理清在Hadoop中一个MapReduce作业(Job)在提交到框架后的整个生命周期过程,权作总结和日后参考,如有问题,请不吝赐教。本文不涉及Hadoop的架构设计,如有兴趣请参考相关书籍和文献。在梳理过程中,我对一些感兴趣的源码也会逐行研究学习,以期强化基础。作者:Jaytalent开始日期:2013年9月9日参考资料:【1】《Hadoop技术内幕--深入解析MapRe原创 2013-09-09 22:09:30 · 2926 阅读 · 0 评论 -
MapReduce调度与执行原理之作业提交
前言:本文旨在理清在Hadoop中一个MapReduce作业(Job)在提交到框架后的整个生命周期过程,权作总结和日后参考,如有问题,请不吝赐教。本文不涉及Hadoop的架构设计,如有兴趣请参考相关书籍和文献。在梳理过程中,我对一些感兴趣的源码也会逐行研究学习,以期强化基础。作者:Jaytalent开始日期:2013年9月9日参考资料:【1】《Hadoop技术内幕--深入解析MapRe原创 2013-09-09 16:14:25 · 3119 阅读 · 0 评论 -
Hadoop学习杂记(三)
分享在实现一个MapReduce调度器后遇到一些问题的解决过程将5个WordCount作业通过example中的main函数提交后,没有使用响应的调度器调度。问题:通过日志发现,5个WordCount作业并没有加入到map队列当中,队列为空,且tasktracker传回的map任务个数始终为0,调查一下原因。猜测原因1:hadoop默认提交作业到默认队列,如果要自定义队列,则需要配原创 2013-08-31 22:37:44 · 1120 阅读 · 0 评论 -
Hadoop学习杂记(二)
Hadoop HDFS 初探1. 数据块的存取HDFS集群上的从节点都会驻留一个数据节点的守护进程,来执行分布式文件系统中最忙碌的部分:将HDFS数据块写到Linux本地文件系统的实际文件中,或者从这些实际的文件读取数据块。2. 客户端访问HDFS的过程客户端进行文件内容操作时,先由名字节点告知客户端每个数据块驻留在哪个数据节点,然后客户端直接与数据节点守护进程进行通信,处原创 2013-08-31 22:25:24 · 1189 阅读 · 0 评论 -
MapReduce任务执行过程研究之Collect过程
最近一直在找工作,写论文,对MapReduce源代码的学习搁置了很久,想来想去认为不能放弃,有意义的事情一定要做好,要做到底,要尽力。前面的文章到后来写的有些心不在焉,有应付之嫌,如今重新拾起,认真学习,认真写下去。MR 2.0已经发布很久了,新架构新思想很值得学习,学无止境啊。参考书目:【1】《Java编程思想(第四版)》【2】《Hadoop 技术内幕:深入解析MapReduce架构原创 2014-04-01 16:05:28 · 3214 阅读 · 0 评论