Hadoop实战-初级部分 之 Hadoop安装部署

原创 2013年12月02日 09:55:47
本节课程概览
Hadoop 在windows 上伪分布式的安装过程 
Hadoop 在linux  上单节点伪分布式的安装过程 
集成Eclipse 开发环境 
Hadoop UI 介绍
运行WordCounter  事例
 
 
第一部分:Hadoop 在windows 上伪分布式的安装过程
安装JDK
1.下载JDK
       http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html
2.解压
   或者直接运行.exe安装
后面根据项目的实际需要来进行调整。
安装 Cygwin
1.下载Cygwin
    网址: http://www.cygwin.com/setup.exe
 2.安装Cygwin
1. Net Category 下的OpenSSL
2.    Base Category 下的sed
3.Editors Category 下的vim
4.Devel Category  下subversion
后面根据项目的实际需要来进行调整。
 
配置环境变量
1.配置JAVA 环境变量
    PATH 和JAVA_HOME:
        JAVA_HOME 指向JDK安装目录;
        PATH 指向JDK的bin
 
启动 SSHD 服务
1.安装SSHD
   ssh-host-config
2. 启动SSHD
    net start sshd 
ssh 的安装和配置
实现ssh无密码登陆
$ssh-keygen -t rsa  
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys 
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机
 
安装 Hadoop
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
配置 Hadoop
1. 配置hadoop-env.sh
2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件
概念
HDFS:
      NameNode  :管理节点
      DataNode   :数据节点
      SecondaryNamenode : 数据源信息备份整理节点
 
MapReduce
       JobTracker  :任务管理节点
       Tasktracker  :任务运行节点
 
配置文件
       core-site.xml   common属性配置
       hdfs-site.xml    HDFS属性配置
       mapred-site.xml  MapReduce属性配置
       hadoop-env.sh     hadooop 环境变量配置
修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
core-site.xml

java代码:
<configuration>     
<property>  
       <name>fs.default.name</name>  
       <value>hdfs://localhost:9000</value>  
</property>  
<property>
       <name>hadoop.tmp.dir</name>
        <value>/hadoop</value>
     </property>
</configuration>  

hdfs-site.xml
  
java代码:
<configuration>     
   <property>  
         <name>dfs.replication</name>  
         <value>1</value>  
    </property>  
</configuration>  
mapred-site.xml
java代码:
<configuration>     
    <property>  
         <name>mapred.job.tracker</name>  
         <value>localhost:9001</value>  
    </property>  
</configuration>  

启动 Hadoop
 1.格式化文件系统
      hadoop namenode –format
 2. 启动hadoop
      启动所有任务start-all.sh/stop-all.sh
      启动关闭HDFS: start-dfs.sh/stop-dfs.sh
      启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh      
 3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker
      
第二部分:Hadoop 在linux  上单节点伪分布式的安装过程
安装 JDK
$chmod +x jdk-6u27-linux-i586.bin
$./jdk-6u27-linux-i586.bin
安装完后设置java 环境变量如下
命令 :/home路径下
$vi .bashrc
然后添加如下语句
export JAVA_HOME=/home/test/ jdk1.6.0_27
export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.
然后. .bashrc使其生效
 
ssh 的安装和配置
$实现ssh无密码登陆
$sudo apt-get install ssh
$ssh-keygen 
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys 
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机
 
 
Hadoop 安装
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
3. 添加Hadoop Bin到环境变量中
 
修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
 
 
conf/core-site.xml

java代码:
<configuration>     
	<property>  
          <name>fs.default.name</name>  
          <value>hdfs://localhost:9000</value>  
      </property>  
      <property>
           <name>hadoop.tmp.dir</name>
           <value>/hadoop</value>
       </property>
</configuration>  

conf/hdfs-site.xml

java代码:
<configuration>     
   <property>  
         <name>dfs.replication</name>  
         <value>1</value>  
    </property>  
</configuration>  

conf/mapred-site.xml

java代码:
<configuration>     
     <property>  
         <name>mapred.job.tracker</name>  
         <value>localhost:9001</value>  
    </property>  
</configuration>  
启动 Hadoop
 1.格式化文件系统
      hadoop namenode –format
 2. 启动hadoop
     启动关闭所有服务 start-all.sh/stop-all.sh
     启动关闭HDFS: start-dfs.sh/stop-dfs.sh
     启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh
 3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker
      
第三部分:Hadoop UI 介绍
Hadoop 重要的端口
1.Job Tracker 管理界面:50030
2.HDFS 管理界面 :50070
3.HDFS通信端口:9000
4.MapReduce通信端口:9001
常用访问页面
1. HDFS 界面
        http://hostname:50070
2. MapReduce 管理界面
        http://hostname:50030
 
第四部分:运行Word Count 示例
相关步骤及命令
1.先在本地磁盘上建立两个文件file1和file2
      $ echo ”Hello world Bye world" > >~/input/file1
      $ echo ”hello hadoop bye hadoop” > >~/input/file2
2.在HDFS上建立一个input目录
       $ hadoop fs -mkdir /tmp/input
3.将file1和file2拷贝到hdfs的input目录下
       $ hadoop fs -put input/* /tmp/input
4.检查hdfs上有没有file1,file2
     $ hadoop fs -ls /tmp/input
5.执行wordcount
   hadoop jar hadoop-examples-1.0.0.jar wordcount  /tmp/input  /tmp/output
6.运行完成,查看结果
   hadoop fs -cat /output/part-r-00000
 
 
第五部分:集成 Eclipse 开发环境
通过 Eclipse 编写 Hadoop 程序
1.导入hadoop-core.jar及hadoop/lib下所有Jar包
2.加入Hadoop配置文件,包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。
本节课程小结
掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装 
初次体验了Hadoop运行的WordCounter程序 
了解了Hadoop UI
 掌握了Hadoop 集成到 Eclipse的情况
私塾在线学习网原创内容,转载请注明出处【http://sishuok.com/forum/blogPost/list/0/5337.html

Hadoop实战-初级部分 之 Hadoop安装部署

本节课程概览 Hadoop 在windows 上伪分布式的安装过程  Hadoop 在linux  上单节点伪分布式的安装过程  集成Eclipse 开发...
  • SprintfWater
  • SprintfWater
  • 2013年10月01日 20:44
  • 713

Hadoop实战-初级部分-第三部分 Hadoop安装部署

Hadoop 在linux  上单节点伪分布式的安装过程 第一部分 安装 JDK $chmod +x jdk-6u27-linux-i586.bin $./jdk-6u...
  • acesql
  • acesql
  • 2013年02月21日 11:48
  • 233

Hadoop实战-初级部分 之 Hadoop IO

私塾在线《深入浅出学  Hadoop-  初级  部分》   ——  系列精品教程 视频课程地址》》》 http://sishuok.com/product/481 整体课程概览 ...
  • hdsfnbdgs
  • hdsfnbdgs
  • 2013年12月02日 09:59
  • 275

hadoop实战-初级部分

对hadoop这个东西不是太了解,似乎是个处理海量数据的东西,没有时间研究,不过发现这样一篇介绍初级入门的帖子,保留下来,分享给大家。 http://sishuok.com/forum/blogPo...
  • song_shi_chao
  • song_shi_chao
  • 2012年10月09日 15:31
  • 491

Hadoop实战之 Hadoop安装部署

整体课程概览 第一部分:开始云计算之旅 第二部分:初识Hadoop 第三部分:Hadoop 环境安装部署 第四部分:Hadoop Shell 基本操作介绍 第五部分:Hadoop  分布式文件系...
  • u013019926
  • u013019926
  • 2013年12月12日 10:40
  • 603

Hadoop脚本——Hadoop实战初级部分学习笔记

4、Hadoop脚本 1、bin目录 hadoop:hadoop shell hadoop-config.sh  给hadoop的一些变量赋值 HADOOP_HOME、HADOOP_...
  • hdngbj
  • hdngbj
  • 2013年07月02日 08:53
  • 1108

Hadoop HDFS——Hadoop实战初级部分学习笔记

5、Hadoop HDFS HDFS 分布式文件系统,高容错性,部署到成本低的硬件;   HDFS架构设计 典型的观察者结构,NameNode(1)-----(*)DataNode...
  • hdngbj
  • hdngbj
  • 2013年07月02日 08:54
  • 1429

Hadoop入门——《Hadoop实战初级部分》学习笔记

1、入门: 现在云计算比较火,为了赶时髦,买了个视频跟着学。   1、为什么学? 大数据,比如1分钟 twitter发超10w信息,facebook浏览量600w,还有如国内的...
  • hdngbj
  • hdngbj
  • 2013年06月29日 14:38
  • 958

安装Hadoop——Hadoop实战初级部分学习笔记

3、安装Hadoop   1、window上装    (建议xp 玩玩就行了,实际要在linux) 1.1、装JDK(不要装到带空格等目录中。。) 1.2、安装cygwin ...
  • hdngbj
  • hdngbj
  • 2013年07月01日 12:29
  • 694

有关Hadoop的几本中文书。

这一段时间在看Hadoop的资料,属于好好学习,天天向上的阶段。中间除了参考官方资料以外也购买了几本Hadoop的中文书,稍稍发表一下个人意见。需要说明的是我对这些书的作译者都表示崇高的敬意,我自己也...
  • keyboardOTA
  • keyboardOTA
  • 2011年12月21日 16:22
  • 7227
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop实战-初级部分 之 Hadoop安装部署
举报原因:
原因补充:

(最多只允许输入30个字)