Hadoop的学习前奏(二)——Hadoop集群的配置

原创 2015年07月24日 19:17:58

前言:

  Hadoop集群的配置即完全分布式Hadoop配置。


笔者的环境:

  Linux:  CentOS 6.6(Final) x64
  JDK:    java version "1.7.0_75"
          OpenJDK Runtime Environment (rhel-2.5.4.0.el6_6-x86_64 u75-b13)
          OpenJDK 64-Bit Server VM (build 24.75-b04, mixed mode)
  SSH:    OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013
  Hadoop: hadoop-1.2.1


步骤:

注:本文的实验是基于伪分布式Hadoop环境的。这里默认你的系统已经可以安装伪分布式的Hadoop了。如果你的系统还不能安装伪分布式Hadoop,请参考《Hadoop的学习前奏——在Linux上安装与配置Hadoop》一文完成配置。


1.首先在三台主机上创建相同的用户


2.在三台主机上分别设置/etc/hosts和/etc/hostname

  $ vim /etc/hosts

  

  $ vim /etc/hostname

  


3.在这三台主机上安装OpenSSH,并配置SSH可以免密码登录。

  关于在单机上进行免密码登录的部分,我在上一篇博客中有详细说明。如果你的配置出了问题以致无法免密码登录,上一篇博客中有具体的做法,这里不再赘述。

  将master中的authorized_keys复制给两台slave,做法如下:

  $ scp authorized_keys slave1:~/.ssh/

  $ scp authorized_keys slave2:~/.ssh/


4.配置三台主机的Hadoop文件。

  $ vim core-site.xml

  


  $ vim hdfs-site.xml

  


  $ vim mapred-site.xml

  


  $ vim masters

  


  $ vim slaves

  

  至此,Hadoop的配置已基本完成,你可以通过


5.启动Hadoop

  bin/hadoop namenode -format

  bin/start-all.sh


6.验证

  你可以通过以下命令或是通过访问http://master:50030和http://master:50070查看集群状态

  hadoop dfsadmin -report


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Python爬虫学习记录(2)——LDA处理歌词

百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来 想看看某类歌词里哪些词用的比较多。 1. 歌词及类别从这里来 http://music.baidu.c...

Python爬虫学习记录(1)——Xiami全站播放数

本博客转移自 hi.baidu.com/cwyalpha 记录了研究生期间从0开始学python的历程。最开始是想听歌,因此去找虾米上播放数比较多的歌,就爬了全站。虾米对爬虫还是比较友好的,大概...

Python之网络爬虫完全教程

[Python]网络爬虫(一):抓取网页的含义和URL基本构成 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spid...
  • roler_
  • roler_
  • 2014-07-19 17:09
  • 7569

CentOS6.5 配置j2ee环境

首先,要配置JDK (1)安装JDK shell:# cd /usr/java # wget --no-check-certificate --no-cookies - --header "Co...

[Python]网络爬虫(一):抓取网页的含义和URL基本构成

一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一...

Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜

最早这个代码是写给所里那个863项目的,想自动下载热门视频,推送到高校的人民日报的电子板上,后来因为视频内容太和谐作罢,改成推荐优酷土豆的视频 code: http://pan.baidu...

python网络爬虫入门(三)———多线程

多线程,是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯...

python网络爬虫入门(二)———模拟登陆知乎

上次我写了第一个网络爬虫是抓取的天气状况,这次来尝试一下登录。首先,像之前一样,取得header的信息。和之前的例子不同,登录需要向服务器发送一些信息,如账号、密码等。 同样,可以使用chrome的...

python 网络爬虫入门(一)———第一个python爬虫实例

最近两天学习了一下python,并自己写了一个网络爬虫的例子。 python版本: 3.5 IDE : pycharm 5.0.4 要用到的包可以用pycharm下载: File->Defau...

[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)