hadoop
stormbjm
这个作者很懒,什么都没留下…
展开
-
Hadoop集群安装配置
Hadoop简介 Apache Hadoop 是一个软件框架,它可以分布式地操纵大量数据。它于2006年首次提及,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种 PaaS 模型。 它的设计核心是 MapReduce 实现和 HDFS (Hadoop Distributed File System),它们源自 MapReduce(由一份 Google 文件引入)转载 2013-10-09 01:42:46 · 972 阅读 · 0 评论 -
MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:转载 2013-10-09 19:12:27 · 1158 阅读 · 0 评论 -
Hadoop学习总结之二:HDFS读写过程解析
一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DF转载 2013-10-09 19:35:23 · 1059 阅读 · 0 评论 -
Hadoop学习总结之三:Map-Reduce入门
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+0043转载 2013-10-09 19:36:24 · 689 阅读 · 0 评论 -
hadoop WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job转载 2013-10-09 19:24:27 · 1380 阅读 · 0 评论 -
Hadoop 学习总结之一:HDFS简介
一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数转载 2013-10-09 19:33:50 · 706 阅读 · 0 评论 -
Hadoop学习总结之五:Hadoop的运行痕迹
在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。一、环境的搭建为了能够跟踪这些运行的痕迹,我们需要搭建一个特殊的环境,从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。我们首先搭建一个拥有转载 2013-10-09 19:38:08 · 1075 阅读 · 0 评论 -
Hadoop学习总结之四:Map-Reduce的过程解析
一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient j转载 2013-10-09 19:39:43 · 927 阅读 · 0 评论 -
MapReduce源码分析总结
转者注:本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的,然而查找资料的时候,发现了这篇文章,并且发现caibinbupt已经对Hadoop的源代码已经进行了详细的分析,推荐大家阅读。转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx参考:1 caibinbupt的源代转载 2013-10-09 19:41:02 · 648 阅读 · 0 评论