CDH5上安装Hive,HBase,Impala,Spark等服务


出处:http://blog.csdn.net/yangzhaohui168/article/details/33403555

Apache Hadoop的服务的部署比较繁琐,需要手工编辑配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装。

Cloudera Manager提供两种软件包安装源,Package 和 Parcel:

Package就是一个个rpm文件,以yum的方式组织起来。

Parcel是rpm包的压缩格式,以.parcel结尾,所有的rpm压缩在一个文件中,方便下载和分发,使用manifest.json文件对parcel文件进行描述,将parcel文件保存到局域网内的Web服务器上,安装过程中就不需要从互联网上下载文件了,实现了离线安装。

一、安装前准备工作

安装Hive,HBase,Impala,Spark之前,Cloudera Manager应该已经安装好了,参见:本地Yum软件源安装Cloudera Manager 5 这篇文章,使用的操作系统为 CentOS-6.5-x86_64,CM版本为 5.0.2 ,采用parcel包方式安装,

1、下载安装中需要的文件:

从 http://archive.cloudera.com/cdh5/parcels/5.0.2.13/ 下载如下的文件,保存到Web服务器的 /var/www/html/cdh5/parcels/latest 目录 :

[javascript]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. [root@localhost latest]# pwd  
  2. /var/www/html/cdh5/parcels/latest  
  3. [root@localhost latest]# ll  
  4. total 1793948  
  5. -rw-r--r-- 1 root root 1836961055 Jun 15 06:51 CDH-5.0.2-1.cdh5.0.2.p0.13-el6.parcel  
  6. -rw-r--r-- 1 root root      33190 Jun 15 09:04 manifest.json  

从 http://archive-primary.cloudera.com/redhat/cdh/ 下载:RPM-GPG-KEY-cloudera,这是对rpm包进行校验的文件,保存到Web服务器的 /var/www/html/redhat/cdh 目录:

[javascript]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. [root@localhost cdh]# pwd  
  2. /var/www/html/redhat/cdh  
  3. [root@localhost cdh]# ll  
  4. total 4  
  5. -rw-r--r-- 1 root root 1690 Jun 16 07:32 RPM-GPG-KEY-cloudera  
  6. [root@localhost cdh]#   

2、准备安装的服务器

测试环境一共使用了六台服务器,列表如下:

服务器列表
ip地址hostname描述信息
172.16.230.140archive.cloudera.com本地web服务器
172.16.230.141cm.worker.comCM,管理节点
172.16.230.151h1.worker.com节点1
172.16.230.152h2.worker.com节点2
172.16.230.153h3.worker.com节点3
172.16.230.154h4.worker.com节点4

所有的服务器上安装CentOS-6.5-x86_64,并关闭防火墙、selinux、保持时间一致。保持所有的root用户密码一致。一个Hadoop集群中的节点最少为三台,本测试环境的节点为四台,上面的ip地址需要根据自已的网络情况进行调整,这是我搭建的虚拟机的IP。

3、在web服务器上发布CentOS-6.5-x86_64安装盘文件

安装过程中,需要从CentOS-6.5-x86_64安装盘上读取一些rpm包,需要将安装盘发布为本地yum源。将安装盘挂载到web服务器,并添加软连接到web目录,web服务器上的web根目录如下:

[javascript]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. [root@localhost html]# pwd  
  2. /var/www/html  
  3. [root@localhost html]# ll  
  4. total 12  
  5. drwxr-xr-x 3 root root 4096 Jun 15 06:48 cdh5  
  6. lrwxrwxrwx 1 root root   24 Jun 20 08:12 centos_media -> /media/CentOS_6.5_Final/  
  7. drwxr-xr-x 3 root root 4096 Jun 14 10:04 cm5  
  8. drwxr-xr-x 3 root root 4096 Jun 16 07:29 redhat  

4、创建 hosts 和 yum配置文件

创建hosts文件,保存到所有服务器的 /etc/hosts ,内容如下:

[javascript]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4  
  2. ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6  
  3.   
  4. 172.16.230.140 archive.cloudera.com  
  5. 172.16.230.141 cm.worker.com  
  6. 172.16.230.151 h1.worker.com  
  7. 172.16.230.152 h2.worker.com  
  8. 172.16.230.153 h3.worker.com  
  9. 172.16.230.154 h4.worker.com  

创建 myrepo.repo 文件,保存到所有服务器的 /etc/yum.repos.d 目录,内容如下:

[javascript]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. [myrepo]  
  2. name=myrepo  
  3. baseurl=http://172.16.230.140/cm5/redhat/6/x86_64/cm/5/  
  4. enabled=1  
  5. gpgcheck=0  

创建 CentOS-Media.repo 文件,保存到所有服务器的 /etc/yum.repos.d 目录,内容如下:

[javascript]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. [c6-media]  
  2. name=CentOS-$releasever - Media  
  3. baseurl=http://172.16.230.140/centos_media  
  4. gpgcheck=0  
  5. enabled=1  
  6. exclude = jdk*  

注意, /etc/yum.repos.d 目录,仅存在  myrepo.repo 和  CentOS-Media.repo  两个文件.

5、cm.worker.com 上安装 PostgreSQL

Hive需要使用一个关系数据库作为Metastore数据库,使用嵌入式数据库存在性能问题,需要在cm.worker.com 上安装一个PostgreSQL数据库,创建用户hiveuser,创建数据库 hivedb,指定数据库拥有者为hiveuser,详细过程可以参见这篇文章:PostgreSQL新手教程

二、图解Hive,HBase,Impala,Spark 的安装和配置

做了上面的准备工作后,登录CM5就可以开始安装了,安装过程大部分情况下都不需要修改默认值,需要修改的地方会以文字说明,下面是安装过程的截图,

1、登录CM5

登录CM5


2、选择Cloudera Express

选择Cloudera Express


3、可供选择的安装包列表

可供选择的安装包列表


4、为CDH集群指定主机

输入 172.16.230.[151-154] ,根据自已网络情况进行调整,然后点击搜索。

为CDH集群指定主机

5、进入添加主机向导

使用parcel安装方式,parcel下载路径不用修改,已经发布在本地web服务器中了。

添加主机向导1

不需要java加密,保留默认值:

添加主机向导2


输入root的密码,所有节点的root密码是一致的。同时安装的数据默认为10,考虑到是虚拟机,修改为2。如果是真实服务器,请保留默认值为10.

添加主机向导3


进行节点CM管理程序安装,如果出现问题,请检查hostname与ip地址配置是否正确。

添加主机向导4


下载和分配parcel包,由于parcel包有1.8G大小,执行时间较长,可以喝杯咖啡再回来。

添加主机向导5


主机安装完成:会对主机进行检查,有个 swappness 需要调整,如果是真实服务器,请将 swappness修改为0,尽量不使用交换分区。

添加主机向导6


6、进入添加服务向导:

选饿所有服务

添加服务向导01

保持默认的节点角色配置:

添加服务向导02

添加服务向导03

添加服务向导04

选择自定义数据库,填写连接信息,并点击测试连接按钮:

添加服务向导05

添加服务的详细配置,保留默认值:

添加服务向导06

添加服务向导07

添加服务向导08

添加服务向导09

首次启动服务的时间比较长,大概二十分钟:

添加服务向导10

添加服务完成:

添加服务向导11

点击完成后,就进入了CM管理的首页了。

7、进入CM首页

cm hmoe page


三、小结

本文描述的hadoop安装方式是一种离线方式,通过CM5加快了环境搭建的速度,CM5将hadoop集群管理的复杂度大大降低。后面在测试中学习hadoop集群的调优。

原创作品,转载请注明出处:http://blog.csdn.net/yangzhaohui168/article/details/33403555

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值