hadoop
文章平均质量分 81
imck
做一个有思想的程序员
展开
-
hadoop 学习笔记(一)hadoop 数据流
文件读取解析为了了解客户端及与之交互的HDFS、namenode和datanode之间的数据流是什么样的,我们可以参考图1,该图显示了在读取文件时一些事件的主要顺序。 图1 客户端读取HDFS中的数据原创 2015-01-28 14:27:31 · 1022 阅读 · 0 评论 -
hadoop 学习笔记(二)MapReduce的工作机制
图1 Hadoop运行MapReduce作业的工作原理作业的提交JobClient的runJob()方法是用于新建JobClient实例并调用其submitJob()方法的便捷方式(步骤1)。提交作业后,runJob()每秒轮询作业的进度,如果发现上次报告后有改变,便把进度报告到控制台。作业完成后,如果成功,就显示作业计数器。如果失败,导致作业失败的错误被记录到控制台。JobC原创 2015-01-29 15:33:49 · 624 阅读 · 0 评论 -
hadoop实现原理(一)配置信息处理
Hadoop作为一个复杂的软件系统,使用一个配置模块提高其适应性或扩展性,作为其扩展、定制的手段和方式。 为什么不直接使用java.util.Properties类? Properties类继承自Hashtable,它并不能支持INI文件的“节”,对配置项进行分类。Properties类提供了load()方法加载,该方法从输入流中读入key-value对,而store()方法则将Properti原创 2015-04-04 20:47:26 · 633 阅读 · 0 评论 -
hadoop实现原理 (二)序列化
序列化有三种主要的用途: (1) 作为一种持久化格式:一个对象被序列化以后,它的编码可以被存储到磁盘上,供以后反序列化用; (2) 作为一种通信数据格式:序列化结果可以从一个正在运行的虚拟机,通过网络被传递到另一个虚拟机上; (3) 作为一种拷贝、克隆机制:将对象序列化到内存的缓冲区中,然后通过反序列化,可以得到一个对已存对象进行深拷贝的新对象。 在分布式数据处理中,主要使用前面两种。 J原创 2015-04-06 22:40:11 · 633 阅读 · 0 评论 -
hadoop实现原理 (三) 远程过程调用
分析hadoop源码,梳理远程过程调用的原理原创 2015-05-18 20:17:15 · 669 阅读 · 0 评论