Hadoop实战-初级部分之 Hadoop安装部署

最新推荐文章于 2023-07-07 21:54:57 发布

hdsfnbdgs

最新推荐文章于 2023-07-07 21:54:57 发布

阅读量386

点赞数

本文链接：https://blog.csdn.net/hdsfnbdgs/article/details/17067619

版权

私塾在线《深入浅出学 Hadoop- 初级部分》 —— 系列精品教程

视频课程地址》》》 http://sishuok.com/product/481

整体课程概览

第一部分：开始云计算之旅

第二部分：初识Hadoop

第三部分：Hadoop 环境安装部署

第四部分：Hadoop Shell 基本操作介绍

第五部分：Hadoop 分布式文件系统1

第五部分：Hadoop 分布式文件系统2

第五部分：Hadoop 分布式文件系统3

第六部分：MapReduce 开发1

第六部分：MapReduce 开发2

第七部分：Hadoop集群的安装

本节课程概览

Hadoop 在windows 上伪分布式的安装过程

Hadoop 在linux 上单节点伪分布式的安装过程

集成Eclipse 开发环境

Hadoop UI 介绍

运行WordCounter 事例

第一部分：Hadoop 在windows 上伪分布式的安装过程

安装JDK

1.下载JDK

http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html

2.解压

或者直接运行.exe安装

后面根据项目的实际需要来进行调整。

安装 Cygwin

1.下载Cygwin

网址： http://www.cygwin.com/setup.exe

2.安装Cygwin

1. Net Category 下的OpenSSL

2. Base Category 下的sed

3.Editors Category 下的vim

4.Devel Category 下subversion

后面根据项目的实际需要来进行调整。

配置环境变量

1.配置JAVA 环境变量

PATH 和JAVA_HOME：

JAVA_HOME 指向JDK安装目录；

PATH 指向JDK的bin

启动 SSHD 服务

1.安装SSHD

ssh-host-config

2. 启动SSHD

net start sshd

ssh 的安装和配置

实现ssh无密码登陆

$ssh-keygen -t rsa

直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对

出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

安装 Hadoop

1.下载Hadoop

http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/

2.解压Hadoop

tar xzvf hadoop-0.21.0.tar.gz

配置 Hadoop

1. 配置hadoop-env.sh

2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件

概念

HDFS:

NameNode ：管理节点

DataNode ：数据节点

SecondaryNamenode : 数据源信息备份整理节点

MapReduce

JobTracker ：任务管理节点

Tasktracker ：任务运行节点

配置文件

core-site.xml common属性配置

hdfs-site.xml HDFS属性配置

mapred-site.xml MapReduce属性配置

hadoop-env.sh hadooop 环境变量配置

修改 hadoop-env.sh

配置JDK即可

export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

core-site.xml

java代码：

<configuration>     
<property>  
       <name>fs.default.name</name>  
       <value>hdfs://localhost:9000</value>  
</property>  
<property>
       <name>hadoop.tmp.dir</name>
        <value>/hadoop</value>
     </property>
</configuration>

hdfs-site.xml

java代码：

<configuration>     
   <property>  
         <name>dfs.replication</name>  
         <value>1</value>  
    </property>  
</configuration>

mapred-site.xml

java代码：

<configuration>     
    <property>  
         <name>mapred.job.tracker</name>  
         <value>localhost:9001</value>  
    </property>  
</configuration>

启动 Hadoop

1.格式化文件系统

hadoop namenode –format

2. 启动hadoop

启动所有任务start-all.sh/stop-all.sh

启动关闭HDFS: start-dfs.sh/stop-dfs.sh

启动关闭MapReduce: start-mapred.sh/stop-mapred.sh

3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker

第二部分：Hadoop 在linux 上单节点伪分布式的安装过程

安装 JDK

$chmod +x jdk-6u27-linux-i586.bin

$./jdk-6u27-linux-i586.bin

安装完后设置java 环境变量如下

命令：/home路径下

$vi .bashrc

然后添加如下语句

export JAVA_HOME=/home/test/ jdk1.6.0_27

export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.

然后. .bashrc使其生效

ssh 的安装和配置

$实现ssh无密码登陆

$sudo apt-get install ssh

$ssh-keygen

直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对

出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

Hadoop 安装

1.下载Hadoop

http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/

2.解压Hadoop

tar xzvf hadoop-0.21.0.tar.gz

3. 添加Hadoop Bin到环境变量中

修改 hadoop-env.sh

配置JDK即可

export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

conf/core-site.xml

java代码：

<configuration>     
	<property>  
          <name>fs.default.name</name>  
          <value>hdfs://localhost:9000</value>  
      </property>  
      <property>
           <name>hadoop.tmp.dir</name>
           <value>/hadoop</value>
       </property>
</configuration>

conf/hdfs-site.xml

java代码：

<configuration>     
   <property>  
         <name>dfs.replication</name>  
         <value>1</value>  
    </property>  
</configuration>

conf/mapred-site.xml

java代码：

<configuration>     
     <property>  
         <name>mapred.job.tracker</name>  
         <value>localhost:9001</value>  
    </property>  
</configuration>

启动 Hadoop

1.格式化文件系统

hadoop namenode –format

2. 启动hadoop

启动关闭所有服务 start-all.sh/stop-all.sh

启动关闭HDFS: start-dfs.sh/stop-dfs.sh

启动关闭MapReduce: start-mapred.sh/stop-mapred.sh

3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker

第三部分：Hadoop UI 介绍

Hadoop 重要的端口

1.Job Tracker 管理界面：50030

2.HDFS 管理界面：50070

3.HDFS通信端口：9000

4.MapReduce通信端口：9001

常用访问页面

1. HDFS 界面

http://hostname:50070

2. MapReduce 管理界面

http://hostname:50030

第四部分：运行Word Count 示例

相关步骤及命令

1.先在本地磁盘上建立两个文件file1和file2

$ echo ”Hello world Bye world" > >~/input/file1

$ echo ”hello hadoop bye hadoop” > >~/input/file2

2.在HDFS上建立一个input目录

$ hadoop fs -mkdir /tmp/input

3.将file1和file2拷贝到hdfs的input目录下

$ hadoop fs -put input/* /tmp/input

4.检查hdfs上有没有file1,file2

$ hadoop fs -ls /tmp/input

5.执行wordcount

hadoop jar hadoop-examples-1.0.0.jar wordcount /tmp/input /tmp/output

6.运行完成，查看结果

hadoop fs -cat /output/part-r-00000

第五部分：集成 Eclipse 开发环境

通过 Eclipse 编写 Hadoop 程序

1.导入hadoop-core.jar及hadoop/lib下所有Jar包

2.加入Hadoop配置文件，包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。

本节课程小结

掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装

初次体验了Hadoop运行的WordCounter程序

了解了Hadoop UI

掌握了Hadoop 集成到 Eclipse的情况

私塾在线学习网原创内容，转载请注明出处【 http://sishuok.com/forum/blogPost/list/0/5337.html】

hdsfnbdgs

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop实战-初级部分之 Hadoop安装部署

私塾在线《深入浅出学 Hadoop- 初级部分》 —— 系列精品教程视频课程地址》》》 http://sishuok.com/product/481整体课程概览第一部分：开始云计算之旅第二部分：初识Hadoop第三部分：Hadoop 环境安装部署第四部分：Hadoop Shell 基本操作介绍第五部分：Hadoop 分布式文件系统1第
复制链接

扫一扫