Hadoop 2.x伪分布式环境搭建

sfrem

于 2016-01-29 11:48:28 发布

阅读量777

点赞数

文章标签： centos hadoop 大数据 hdfs namenode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sfrem/article/details/50606281

版权

Hadoop 2.x伪分布式环境搭建测试步骤：

环境简介：

本机系统：Windows7旗舰版

虚拟机：VMware版本：10.0.0 build-1295980

软件下载：http://www.xp510.com/xiazai/ossoft/desktools/22610.html

Centos 6.4(64位):

硬盘空间：80 G

内存：1.5 G

软件下载：http://www.centoscn.com/CentosSoft/iso/2013/0720/371.html

安装参考：http://jingyan.baidu.com/article/a65957f4af6d9524e67f9b80.html

Hadoop版本：Hadoop-2.5.0

JDK:jdk-7u67-linux-x64

FTP工具：FileZilla

搭建步骤：

1、安装虚拟机：VMware10

安装过程参考：http://jingyan.baidu.com/article/48206aeae46723216ad6b3be.html

2、在虚拟机上安装Linux操作系统：Centos6.4

安装过程参考：http://jingyan.baidu.com/article/a65957f4af6d9524e67f9b80.html

3、配置Linux系统网络地址为静态IP，修改hostname和hosts，同时将Linux的IP和hostname添加修改到Windows的hosts中。

3.1修改linux系统主机名，如图1：

3.2修改liunx系统文件：hosts,使IP和hostname对应，如图2：

3.3修改windows系统文件：hosts，添加linux系统IP和hostname，如图3：

图3

3.4测试windows与liunx互通：

在windwos下使用liunx系统IP和hostname可以ping通，如图5：

图5

4、使用FileZilla上传hadoop和jdk安装包，如图6：

图6

1、将上传的hadoop和jdk分别解压到安装目录,如图7：

图7

2、配置JDK，使用java –version查看当前JKD版本，并用rpm –qa| grep java查看依赖关系，如图8：

图8

3、使用命令：rpm –e--nodeps删除原JDK，如图9：

图9

4、重新配置JDK，修改Linux系统下的/etc/profile文件，在文件中增加JAVA_HOME配置，如图10：

图10

5、使用命令：source/etc/profile使文件立即生效，然后使用测试命令：java –version,检测当前安装JDK版本，如正确输出版本信息则说明JDK配置成功，如图11：

图11

6、将hadoop添加到环境变量vi/etc/profile：export JAVA_HOME=/usr/java/jdk1.7.0_55

7、配置hadoop环境：修改配置文件（5个）hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml.template（需要重命名： mvmapred-site.xml.template mapred-site.xml）、yarn-site.xml

8、格式化HDFS（namenode）：hadoopnamenode –format

9、启动hadoop：sbin/start-dfs.sh、sbin/start-yarn.sh

10、使用jps命令验证是否启动成功，如图12则为启动成功：

图12

11、通过web访问HDFS监控页面，如图13：

图13

12、通过WEB访问YUAN管理页面，如图14：

图14

13、使用WordCount运行结果，如图15，图16：

图15

图16

HDFS的理解：HDFS是一种分布式文件管理系统，主要实现了对底层文件的处理，可以实现上传下载查询等文件系统的主要功能。HDFS是主从结构，集群可以通过WEB页面进行维护与管理，具有高容错，可扩展的功能。还有由于设计成可以运行在低廉硬件上运行的特性，因此使用成本较低，适合大多数企业及商业应用，因此具有大规格推广的基础和先天优势。

YARN的理解，YARN是HADOOP最新的资源管理系统，主要实现了对HADOOP中的硬件资源自动分配（RM）与调度任务管理（AM）的功能。

MapReduce是一种编程思维，源于GOOGLE的论文，适用于大量数据的并行执行或运算，中心思想是将任务分解到成若干小任务运行后再汇总，其中MAP是交任务分解，REDUCE是汇总。个人理解是MAP过程有两个功能：1将我们的任务分解成若干个小任务，2是查询分类过程，将我们需要的信息找出来，最后用REDUCE将我们查到的信息进行汇总处理，并存储或者输出到客户。

博客等级

码龄17年

9
原创

12
点赞

55
收藏

6
粉丝

关注

私信

热门文章

上一篇：: Hadoop 2.5.0伪分布集群搭建

下一篇：: Hadoop HA实战

最新评论

Python 打开网页的几种方式
纯欲小黄桃: 这篇博客介绍了 Python 打开网页的几种方式，包括：直接调用系统命令 os：使用 `os.system()` 执行系统命令打开浏览器并访问指定网页。引用 webbrowser 包：使用 `webbrowser.open()` 直接打开网页。引用 selenium 工具：使用 selenium 库控制浏览器打开网页，并解决一些问题，例如网页闪退。我的观点：简单易用：对于简单的需求，直接调用系统命令或使用 webbrowser 包即可满足。功能强大：使用 selenium 工具可以更灵活地控制浏览器，例如模拟用户操作、等待页面加载等。学习成本： selenium 的学习成本较高，需要了解一些基本概念和操作。选择哪种方式取决于具体需求：简单打开网页：使用 `.system()` 或 `webbrowser.open()`。需要模拟用户操作：使用 selenium。需要控制浏览器：使用 selenium。一些额外的建议：可以使用 `webbrowser.get()` 获取浏览器实例，并对其进行更精细的控制。可以使用 `seleniumwire` 等库来记录和修改网络请求。可以使用 `pyppeteer` 等库来模拟 Chrome 浏览器。希望以上信息能帮助大家更好地选择合适的打开网页方式！
Python 打开网页的几种方式
2401_85652249: #导入包 import os #执行包命令 os.system('"C:/Users/Public/AppData/Local/Google/Chrome/Application/chrome.exe" https://www.baidu.com')
spool导出指定ascli码值分隔符
CSDN-Ada助手: 恭喜您写了第10篇博客！标题“spool导出指定ascli码值分隔符”的内容听起来非常有趣。您的博客一直以来都非常有深度和实用价值，让读者们受益匪浅。在下一步的创作中，我建议您可以继续分享一些关于spool导出的高级技巧，或者探索其他类似主题的相关内容。您的谦虚态度和对读者需求的关注，无疑会提升您的博客的质量和影响力。期待您更多的精彩创作！
Python 打开网页的几种方式
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Hadoop伪分布环境搭建namenode启动不了解决
qq_41898833: 改了之后还是没有启动起来?

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。