大数据学习记录（day7）- 搭建hadoop开发环境（1）

最新推荐文章于 2020-07-13 18:08:29 发布

alvin_2005

最新推荐文章于 2020-07-13 18:08:29 发布

阅读量321

点赞数

分类专栏：技术日志大数据学海无涯文章标签： hadoop

本文链接：https://blog.csdn.net/alvin_2005/article/details/79554111

版权

学海无涯同时被 3 个专栏收录

60 篇文章 2 订阅

订阅专栏

技术日志

9 篇文章 0 订阅

订阅专栏

大数据

8 篇文章 0 订阅

订阅专栏

（距离上一次更新，时间隔了好久，继续学习吧

）

学习来源：http://www.aboutyun.com/thread-6187-1-1.html
http://blog.csdn.net/yangwenxue_admin/article/details/51332324
http://lib.csdn.net/article/hadoop/6616
http://lib.csdn.net/article/hadoop/55853
https://my.oschina.net/u/570654/blog/112757
http://blog.csdn.net/hliq5399/article/details/78193113
《从基础架构到最佳实践》（祁伟等，清华大学出版社，2013年8月第一版）
今天，试着按照网上的步骤，在Windows环境下搭建hadoop开发环境。
主机：lenovo Thinkpad E431, 4G内存
操作系统：Windows10家庭版 64位
Windows下运行Hadoop，通常有两种方式：一种是用VM方式安装一个Linux操作系统，这样基本可以实现全Linux环境的Hadoop运行；另一种是通过Cygwin模拟Linux环境。后者的好处是使用比较方便，安装过程也简单。今天先试试第一种方式。
（一）准备工作及虚拟机运行环境安装。
1、准备工作
（1）安装VM，我选择的是VM WorkStation 10。
（2）下载Liunx安装镜像，我选择的是Red Hat Linux 6.0 32位，并通过VM新建虚拟机安装，硬盘20G，按照向导设置默认用户名和登录密码（用户名不能是root，该密码同时也是root帐户的密码）。
（3）修改VM WorkStation网卡DNS设置。

2、准备主机环境配置
（1）修改IP地址。
linux虚拟机安装完成后，默认是自动匹配IP地址的，为了下一步更好的完成HDFS部署，需要指定IP地址。
为了与主机共享网络，需要先查看VM在主机上虚拟网卡的Wins服务器地址，如下图所示：

在Red Hat Linux的图形界面下，打开/etc/sysconfig/network-scripts/目录下的ifcfg-eth0文件直接编辑，或通过界面菜单选择“system->preferences->network connections”打开network manager，选择IPv4标签页，选择Manual（自定义），add config增加IP和DNS Server配置。完成后，ifcfg-eth0文件内容如下：

注：--1--直接修改文件内容，必须以root身份登录（下同）。
  --2--虚拟机IP网关配置为主机虚拟网卡的Wins服务器，网段与网关在一个网段上即可，这样就可以共享主机的网络了。
（2）修改主机名称
打开/etc/sysconfig/network文件，修改主机名称为master.hadoop。注：--1--直接修改文件内容，必须以root身份登录（下同）。
  --2--虚拟机IP网关配置为主机虚拟网卡的Wins服务器，网段与网关在一个网段上即可，这样就可以共享主机的网络了。
（2）修改主机名称
打开/etc/sysconfig/network文件，修改主机名称为master.hadoop。注：--1--直接修改文件内容，必须以root身份登录（下同）。
  --2--虚拟机IP网关配置为主机虚拟网卡的Wins服务器，网段与网关在一个网段上即可，这样就可以共享主机的网络了。
（2）修改主机名称
打开/etc/sysconfig/network文件，修改主机名称为master.hadoop。

注：--1--直接修改文件内容，必须以root身份登录（下同）。
--2--虚拟机IP网关配置为主机虚拟网卡的Wins服务器，网段与网关在一个网段上即可，这样就可以共享主机的网络了。
（2）修改主机名称
打开/etc/sysconfig/network文件，修改主机名称为master.hadoop。

（3）修改Hosts：
打开/etc/hosts文件，修改结果如下图所示：

注：修改IP地址时如果使用了network manager工具，则该步骤可以跳过。
（4）环境测试。
通过ping测试master.hadoop是否畅通。效果如下图所示：

（5）关闭防火墙。
学习环境可以直接把防火墙关闭掉。
--1--用root用户登录后，执行查看防火墙状态。
[root@master ~]# service iptables status
--2--临时关闭防火墙
[root@master ~]# service iptables stop
--3--如果要永久关闭防火墙用。
[root@master ~]# chkconfig iptables off
这种需要重启才能生效。
（6）关闭selinux。
selinux是Linux的一个子安全机制，学习环境可以将它禁用。
[root@master ~] vim /etc/sysconfig/selinux

3、Java安装与部署
（1）查看是否已经安装了java JDK。
[root@master ~]# java –version
注意：Hadoop机器上的JDK，最好是Oracle的Java JDK，不然会有一些问题，比如可能没有JPS命令。
如果安装了其他版本的JDK，卸载掉。
（2）下载Java JDK：jdk-7u80-linux-i586.tar.gz
（3）将jdk-7u80-linux-i586.tar.gz解压到/opt/modules目录下
[root@master ~]# tar -zxvf Downloads/jdk-7u80-linux-i586.tar.gz -C /opt/modules
注：linux文件路径是区分大小写的，root的当前目录位于/root，如果/opt下没有modules目录，可通过mkdir命令创建。
（4）添加环境变量
设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile，追加
export JAVA_HOME="/opt/modules/jdk1.7.0_80"
export PATH=$JAVA_HOME/bin:$PATH

修改完毕后，执行 source /etc/profile
（5）安装后再次执行 java –version,可以看见已经安装完成。

（二）Hadoop本地模式安装。
4、下载hadoop安装包。
下载地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.5.0/hadoop-2.5.0.tar.gz
5、创建一个存放本地模式hadoop的目录
[root@master ~]$ mkdir /opt/modules/hadoopstandalone
6、解压hadoop文件
[root@master ~]$ tar -zxf Downloads/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopstandalone/
7、运行MapReduce程序，验证
这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce，该程序用于对输入文件中英文单词进行计数。
（1）准备mapreduce输入文件/opt/data/wc.input

（2）运行hadoop自带的mapreduce Demo
[root@master hadoop-2.5.0]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2
这里可以看到job ID中有local字样，说明是运行在本地模式下的。

（3）查看输出文件
本地模式下，mapreduce的输出是输出到本地。
[hadoop@bigdata-senior01 hadoopstandalone]$ ll output2
输出目录中有_SUCCESS文件说明JOB运行成功，part-r-00000是输出结果文件。

alvin_2005

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习记录（day7）- 搭建hadoop开发环境（1）

（距离上一次更新，时间隔了好久，继续学习吧）学习来源：http://www.aboutyun.com/thread-6187-1-1.htmlhttp://blog.csdn.net/yangwenxue_admin/article/details/51332324http://lib.csdn.net/article/hadoop/6616http://lib.csdn.net/article/...
复制链接

扫一扫