![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
猫头哥
创业中的猫头哥
展开
-
hadoop-1.0.3单机版安装(Pseudo-Distributed Operation)
使用版本是hadoop-1.0.3-bin.tar.gz官方参考文档http://hadoop.apache.org/common/docs/r1.0.3/single_node_setup.html按照官方的文档安装,系统仍然无法启动,需要做额外的2件事情。1)设置JAVA_HOME,即使在/etc/profile里设置仍然无效,需要在hadoop-1.0.3/c...2012-08-08 20:10:11 · 121 阅读 · 0 评论 -
hadoop经典系列(九)hadoop1.x 默认端口说明
[table]|角色|名称|端口|位置|描述|namenode|fs.default.name|9000|core-site.xml|namenodeRPC交互端口|namenode|dfs.http.address|50070|hdfs-site.xml|NameNodeweb管理端口|jobtracker|mapred.job.tracker|9001|mapred-site....2013-12-03 00:07:34 · 140 阅读 · 0 评论 -
hadoop经典系列(十)瓶颈节点分离方案
【namenode和secondarynamenode分离】 namenode的配置在core-site.xml --> fs.default.name secondarynamenode配置在masters###############################################################################【name...2013-12-03 10:33:21 · 205 阅读 · 0 评论 -
hadoop经典系列(十一)性能分析实验初步
【试验目的】本试验目的是为了总结hadoop相关参数优化对性能的影响。【试验环境】硬件环境本次试验用机4台,配置一致:CPU: Intel(R) Xeon(R) CPU E5620 @ 2.40GHz * 16内存: MemTotal: 32867608 kB 64bitlinux版本 CentOS release 6.2 (Fina...原创 2013-12-03 13:02:55 · 116 阅读 · 0 评论 -
hadoop经典系列(十二)HDFS添加删除节点并进行集群平衡
HDFS添加删除节点并进行hdfs balance方式1:静态添加datanode,停止namenode方式1.停止namenode2.修改slaves文件,并更新到各个节点3.启动namenode4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)-----------------------------...2013-12-04 23:46:39 · 568 阅读 · 0 评论 -
flume安装
1)设置 ${FLUME_HOME}/bin/flume-env.sh.template为flume-env.sh设置其中的环境变量export JAVA_HOME=/usr/local/java/defaultexport FLUME_MASTER="192.168.56.2"2)创建目录mkdir -p /var/log/flume/创建软链ln -...2013-12-17 18:14:10 · 76 阅读 · 0 评论 -
zookeeper系列(二)配置文件说明
ZooKeeper 这样的设计其实是有它自身的原因的。通过前面对 ZooKeeper 的配置可以看出,对 ZooKeeper 集群进行配置的时候,它的配置文档是完全相同的(对于集群伪分布模式来说,只有很少的部分是不同的)。这样的配置方使得在部署 ZooKeeper 服务的时候非常地方便。另外,如果服务器使用不同的配置文件,必须要确保不同配置文件中的服务器列表相匹配。[size=...2014-01-20 21:47:56 · 96 阅读 · 0 评论 -
zookeeper系列(三)zookeeper简介
Zookeeper是Google的Chubby一个开源的实现,是高有效和可靠的协同工作系统,Zookeeper能够用来leader选举,配置信息维护等,在一个分布式的环境中,需要一个Master实例或存储一些配置信息,确保文件写入的一致性等. ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是Hadoop和Hbase的重要组件。[2]提供...原创 2014-01-20 22:50:46 · 97 阅读 · 0 评论 -
hbase系列(一)初始
如果要使用NoSQL服务器,单机首选redis,集群首选HBase。下面笔者就简单的介绍一下HBase的业务逻辑。 下面笔者重点介绍一下HBASE寻址过程。2个图足以说明。[b]Hbase架构[/b][img]http://dl2.iteye.com/upload/attachment/0098/5273/af833015-265a-3854-b64a-2fefa1922...原创 2014-06-26 22:29:13 · 115 阅读 · 0 评论 -
hadoop经典系列(八)map/reduce的读取和写入
write/read参考《hadoop权威指南》书的63和66页读取流程[img]http://dl2.iteye.com/upload/attachment/0091/7920/cb45caaa-3777-3530-8a86-e2c492156cc0.jpg[/img]写入流程[img]http://dl2.iteye.com/upload/attachm...原创 2013-12-03 00:01:58 · 93 阅读 · 0 评论 -
hadoop经典系列(七)shuffle中的排序
1.map写到buffer时候,预排序(为了后面的快排)2.spill的时候二次快排3.再根据partioner排序,每个partioner里根据key排序4.在Map 任务完成前,所有的spill 文件将会被归并排序为一个索引文件和数据文件5. 当所有的Map 输出都被拷贝后,Reduce 任务进入排序阶段(更恰当的说应该是归并阶段,因为排序在Map 端就已经完成),这个阶段会...原创 2013-12-03 00:01:45 · 396 阅读 · 0 评论 -
hadoop经典系列(一)1.2.1真集群安装
实验环境192.168.56.2 Master.Hadoop192.168.56.3 Slave1.Hadoop192.168.56.4 Slave2.Hadoop一 安装JDK# /etc/profileexport JAVA_HOME=/usr/local/java/defaultexport PATH=$JAVA_HOME/bin:$J...2012-08-31 06:01:50 · 65 阅读 · 0 评论 -
zookeeper系列(一)3.4.5集群安装
复制conf/zoo_sample.cfg 为 zoo.cfg并在zoo.cfg里可以看到5个参数修改全部参数如下tickTime=2000dataDir=/root/zookeeper-3.4.5/buildclientPort=2181initLimit=5syncLimit=2server.1=192.168.56.2:2888:3888server.2=...2012-08-31 06:36:48 · 76 阅读 · 0 评论 -
存储单位换算--看了hadoop权威指南
IDC的“数字宇宙”(digital universe)中指出,2006年数据总量是0.18ZB。2011年数据总量将达到1.8ZB。 其中1ZB=1.0e+21Byte=1000EB=1000 000PB = 1000 000 000TB2012-09-30 14:49:30 · 116 阅读 · 0 评论 -
hadoop经典系列(三)2.x真集群安装
一 安装JDK# /etc/profileexport JAVA_HOME=/application/search/java/defaultexport PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar#...2013-12-02 23:04:17 · 89 阅读 · 0 评论 -
hadoop经典系列(零)初识hadoop
Apache Hadoop更准确的说是一个基础架构平台。主要提供分布式文件存储,云计算。 具体这个大平台包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。 使用hadoop,要结合zookeeper,Hbase使用。 目前有2个主要版本,1.0和2.0。其中...原创 2013-12-02 23:10:22 · 101 阅读 · 0 评论 -
hadoop经典系列(四)hadoop1.x启动脚本逻辑
[img]http://dl2.iteye.com/upload/attachment/0091/7905/36007cf2-5392-3e80-a29a-9c4c38f0ca33.jpg[/img]说明:1. start-all.sh脚本执行,namenode和jobtracker需在同一个物理节点上2. namenode和jobtracker物理分离,则分别执行start-...2013-12-02 23:32:32 · 97 阅读 · 0 评论 -
hadoop经典系列(五)1.x的mapreduce过程图解
官方shuffle的架构图从全局宏观上,解释了数据的走向和原理[img]http://dl2.iteye.com/upload/attachment/0091/7909/2d8bab10-129f-32b2-a0e0-b32133f901f2.png[/img]细化架构图从jobtracker和tasker解释了map/reduce的细节[img]http://dl2....2013-12-02 23:36:57 · 231 阅读 · 0 评论 -
hadoop经典系列(六)2.x的mapreduce过程图解
从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看,MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷。在过去的几年中,hadoop 开发团队做了一些 bug 的修复,但是最近这些修复的成本越来越高,这表明对原框架做出改变的难度越来越大。 为从根本上解决旧 MapR...2013-12-02 23:44:50 · 105 阅读 · 0 评论 -
hadoop经典系列(二)hadoop常用命令初步
[b]distcp 并行复制[/b]相同版本的hadoop集群hadoop distcp hdfs//namenode1/foo hdfs//namenode2/bar不同版本的hadoop集群(hdfs版本),在写的一方执行hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar[b]hadoop的归档...2013-09-06 15:46:27 · 95 阅读 · 0 评论