Hadoop1.x生态系统
文章平均质量分 77
苍_狼
你的态度决定你的高度!
展开
-
Hadoop生态系统--序言
对Hadoop生态系统学习及实践有很长一段时间了,最早接触Hadoop生态系统是在2010年年底,那时正在为公司一个项目研究搜索引擎,最后选定nutch搜索引擎作为研究对象,在研究nutch的过程中就与Hadoop结下了不解之缘。在实践hadoop过程中,遇到过很多问题,也迷茫过,不知道hadoop生态系统到底应用在那些业务场景中?不知道在众多的版本中到底采用哪个版本?不知道Hadoop生态系原创 2014-01-03 23:25:04 · 465 阅读 · 0 评论 -
Hadoop配置文件说明
1、dfs.hosts 记录即将作为datanode加入集群的机器列表2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表4、master 记录运行辅助namenode的机器列表5、slave 记录运行datanode和tasktracker的机器原创 2014-01-20 09:18:34 · 467 阅读 · 0 评论 -
Ambari安装
Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向 Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。最近准备装ambari,于是,就根据官网进行了安装,下面是我推荐的正确的较完善的安装方式,希望对大家有所帮助。原创 2014-01-09 15:45:01 · 572 阅读 · 0 评论 -
深入理解HDFS
1、HDFS架构 Namenode: 一个hdfs cluster包含一个NameNode和若干的DataNode,NameNode是master,主要负责管理HDFS文件系统,具体地包括namespace管理(其实就是目录结构),block管理(其中包括 filename->block,block->ddatanode list的对应关系)。Namenode提供的是始终被动接收服务的se原创 2014-01-06 23:24:31 · 484 阅读 · 0 评论 -
从HDFS看分布式文件系统的设计需求
本文转载:http://dennis-zane.iteye.com/blog/228537 分布式文件系统的设计目标大概是这么几个:透明性、并发控制、可伸缩性、容错以及安全需求等。我想试试从这几个角度去观察HDFS的设计和实现,可以更清楚地看出HDFS的应用场景和设计理念。 首先是透明性,如果按照开放分布式处理的标准确定就有8种透明性:访问的透明性、位置的透明性、并发透明性转载 2014-01-05 23:53:13 · 413 阅读 · 0 评论 -
Hadoop生态系统
使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经近20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备。 截止到原创 2014-01-05 20:32:13 · 828 阅读 · 0 评论 -
HDFS的优点、缺点及改进策略
HDFS以流式数据访问模式来存储超大文件,运行与商用硬件集群上。 1、超大文件 "超大文件"在这里指具有几百MB,几百GB甚至几百TB大小的文件。目前已经有存储PB级数据的Hadoop集群了。 2、流式数据访问 HDFS的构建思路是:“一次写入,多次读取”是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来,接着长时间在此数据集上进行各原创 2014-01-05 23:38:28 · 978 阅读 · 0 评论 -
介绍Hadoop相关的几个开源系统
Hadoop作为一个生态系统,每个系统只解决某一个特定的问题域,这也是Hadoop的魅力所在:不搞统一型的一个全能系统,而是小而精的多个小系统。本文重点讨论分布式计算领域的几个开源系统可以解决的问题域。(1)MapReduce:古老的分布式计算框架,它的特点是扩展性、容错性好,易于编程,适合离线数据处理,不擅长流式处理、内存计算、交互式计算等领域。MapReduce网址是:http://had原创 2014-01-05 22:05:16 · 466 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计(摘自Hadoop官方文档)
一、引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件翻译 2014-01-05 18:38:41 · 626 阅读 · 0 评论 -
Hadoop常用端口配置
core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。常用的端口配置HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/原创 2014-01-20 09:16:38 · 560 阅读 · 0 评论