Hue安装及配置
目录:
1、环境准备:
2、安装hue:
1、环境准备:
CentOS-6.5
jdk1.7.0_75
Maven-3.3.9(目前最新版:2017-8-22发行的3.5.0)
git-2.9.3(目前最新版:2017-8-10发行的2.9.5)
hdp-2.4.2.0(目前最新版:2017发行的2.6.*)
Hue-3.7(目前最新版:2017-7-13发行的4.0)
hive-1.2.1000(1.2.1发行版是2015-6-27发行的,目前最新版:2017-7-25发行的2.2.0)
ambari-2.2.2.0(目前最新版:2017-8-29发行的2.5.2)
(1)查看Linux内核版本和发行版本:
①查看Linux内核版本:
方法一:cat /proc/version
图1.1 截图1
方法二:uname -a
图1.2 截图2
②查看Linux发行版本:
方法一:lsb_release -a
图1.3 截图3
方法二:cat /etc/issue
图1.4 截图4
附注:
A)Linux内核版本:指系统内核的版本号。包括实验版本和产品化版本。每一个版本号由三位数字组成,第二位数字说明版本类型,第二位数字为偶数则为产品化版本,奇数则为实验版本。这里2.6.32即产品化版本。
B)Linux发行版本:指一些Linux厂商将Linux系统内核与应用软件及文档包装在一起,并提供一些安装界面和系统设定与管理工具,组成一个发行套件。
(2)查看jdk版本:
java -version
图1.5 截图5
(3)查看Maven版本:
mvn -v
图1.6 截图6
(4)查看git版本:
git --version
图1.7 截图7
(5)查看hdp发行版版本:
hadoop version
图1.8 截图8
可知hap发行版版本为2.4.2.0,当然,在Ambari中也是可以直观看到的:
图1.9 截图9
附注:
A)hdp:
①Hortonworks Data Platform数据管理平台,是一个打包好的hadoop发行版软件包,旨在简化部署和管理Hadoop集群,相对于简单下载各种Apache代码包然后尝试将他们运行到一起形成一个系统。
②hdp使用Yarn作为此架构的核心,为通过一系列处理方式完成多任务处理提供了数据平台。
③hdp包括稳定版本的Apache Hadoop的所有关键组件,通过软件来集成、测试封装、配置、监控和管理Hadoop集群,Ambari提供一个基于它自身Restful的api实现直观、简单易用的web界面。
B)Ambari:
①Ambari跟Hadoop一样,也是Apache Software Foundation中的一个顶级项目,作用是创建、管理、监视整个Hadoop生态圈的集群。
②Ambari自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server和Ambari Agent。用户通过Ambari Server通知Ambari Agent安装对应的软件,Agent会定时地发送各个机器每个软件模块的状态给Server,最终这些状态信息会呈现在Ambari的GUI中,方便用户了解到集群的各种状态,并进行相应的维护。
(6)查看Hive版本:
①进入hive,输入set -v
图1.10 截图10
在这里可以看到jdk版本以及hdp数据平台版本,但是没有查看到hive版本;
②在克隆的控制台中查看java进程:
jps
图1.11 截图11
附注:
A)jps:java virtual machine process status tool,是jdk1.5提供的一个显示当前所有java进程pid的命令。
③lsof -g 21441 | grep hive
图1.12 截图12
附注:
A)lsof命令:list open files,用于查看进程打开的文件、进程打开的端口等等。
-a参数:列出打开文件存在的进程
-g参数:列出gid号进程详情
查看到hive的版本号为1.2.1000。
(7)查看ambari版本:
ambari-server --version
图1.13 截图13
2、安装Hue:
(1)下载Hue4.0软件包
gitHub地址:https://github.com/cloudera/hue
Hue的软件包共有快300MB,直接在服务器中进行下载太慢了,故采取先拉回到本地主机,再上传到服务器上,输入命令:git clonehttps://github.com/cloudera/hue.git
图2.1 截图14
采用SFTP把Hue目录从本地再put到服务器上面去。
下载完毕后,cd进入hue目录,想使用make apps发现报错,原因查看github中工程的readme文档,发现需要安装许多的依赖包:
图2.2 截图15
使用yum对依赖包进行安装:
yum install -y 'ant' 'asciidoc' 'cyrus-sasl-devel' 'cyrus-sasl-gssapi' 'gcc' 'gcc-c++' 'krb5-devel' 'libtidy' 'libxml2-devel' 'libxslt-devel' 'make' 'mvn' 'openldap-devel' 'python-devel' 'sqlite-devel' 'openssl-devel' 'gmp-devel'
经历漫长的安装过程,出现complete字样,安装完成。
图2.3 截图16
(2)进入hue目录,输入make apps进行安装,报错。
图2.4 截图17
图2.5 截图18
最终发现是版本冲突问题,故采用另一种安装方式:
yum install hue
(3)安装完毕后,修改/etc/hadoop-httpfs/conf目录下的httpfs-site.xml文件:
图2.6 截图19
附注:
A)参数说明:
httpfs.proxyuser.hue.hosts中的hue是启动httpfs的用户名
httpfs.proxyuser.hue.groups中的hue是启动httpfs的用户组名
httpfs.hadoop.config.dir指httpfs代理服务所在位置
B)Httpfs本质上是一个代理服务,它部署在能够完全访问HDFS集群的网络内,对于文件CURD(create创建、update更新、retrieve读取、delete删除)的操作全部提交给Httpfs服务,然后由它去和HDFS集群交互,所以客户端不需要能够访问所有HDFS主机。Httpfs服务提供的操作接口是HTTP协议的RESTFUL接口,但是官方没有提供现成的Java客户端。
(4)查看/etc/hue/conf目录下的hue.ini文件,修改该文件:
A)修改Hue web服务器所在主机及端口:
在vim下找到关键字:http_host及http_port
# Webserver listens on this address and port
http_host=datatub2
http_port=8000
B)修改时区名称:
在vim下找到关键字:time_zone
# Time zone name
time_zone=Asia/Shanghai
C)修改运行Hue Web Server的进程用户及进程用户组
在vim下找到关键字:server_user和server_group
# Webserver runs as this user
server_user=hue
server_group=hadoop
D)修改Hue管理员
在vim下找到关键字:default_user
default_user_group=hadoop
default_username=hue
default_user_password=1111
E)修改默认的HDFS路径
在/usr/hdp/current/hadoop-client/conf目录下的文件core-site.xml找到hadoop中hdfs的默认路径:
图2.7 截图20
在vim下找到关键字:fs_defaultfs
[[[default]]]
# Enter the filesystem uri
fs_defaultfs=hdfs://datatub1:8020
F)修改yarn管理的resourcemanager路径
在/usr/hdp/current/hadoop-client/conf目录下的文件yarn-site.xml搜索关键字:resourcemanager.webapp.address,
图2.8 截图21
在vim下找到关键字:resourcemanager_api_url
# URL of the ResourceManager webapp address (yarn.resourcemanager.webapp.address)
resourcemanager_api_url=http://datatub2:8088
G)修改yarn rpc路径
在/usr/hdp/current/hadoop-client/conf目录下的文件yarn-site.xml搜索关键字:yarn.resourcemanager.address
图2.9 截图22
在vim下找到关键字:resourcemanager_rpc_url
# URL of Yarn RPC adress (yarn.resourcemanager.address)
resourcemanager_rpc_url=http://datatub2:8050
H)修改MapReduce历史服务器路径:
在/usr/hdp/current/hadoop-client/conf目录下的文件mapred-site.xml搜索关键字:jobhistory.webapp
图2.10 截图23
在vim下找到关键字:history_server_api_url
# URL of the HistoryServer API
history_server_api_url=http://datatub2:19888
附注:
Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的MapReduce作业,比如使用的Map数目、Reduce数目、作业启动时间、作业完成时间等信息,当启动了历史服务器后,这些历史数据将存放在HDFS中。
I)修改NodeManager的路径:
在/usr/hdp/current/hadoop-client/conf目录下的文件mapred-site.xml搜索关键字:nodemanager.address
图2.11 截图24
在vim下找到关键字:node_manager_api_url
# URL of the NodeManager API
node_manager_api_url=http://0.0.0.0:45454
J)配置beeswax中Hive所在节点主机名/IP
①在/usr/hdp/current/hive-client/conf目录下的文件hive-site.xml
搜索关键字:hive.server2.thrift.port查看监听的TCP端口号
图2.12 截图25
在hue.ini中进行修改:
# Port where HiveServer2 Thrift server runs on.
hive_server_port=10000
②修改Hive所在节点主机IP:
# Host where Hive server Thrift daemon is running.
# If Kerberos security is enabled, use fully-qualified domain name (FQDN).
hive_server_host=datatub2
③修改Hive配置文件目录:
图2.13 截图26
# Hive configuration directory, where hive-site.xml is located
hive_conf_dir=/usr/hdp/current/hive-client/conf
(5)启动hue:
进入/etc/init.d目录,/etc/init.d/hue start
图2.14 截图27
相对应的关闭hue为stop,重启hue为restart。
(6)开启8000端口
①修改防火墙配置:
vi /etc/sysconfig/iptables
②在iptables文件中添加下面这行:
-A INPUT -p tcp -m tcp --dport 8000 -j ACCEPT
③保存并退出,然后重启防火墙:service iptables restart
(7)查看8000端口情况:
netstat -anp |grep 8000
(8)在浏览器中访问hue
①首页展示:
图2.15 截图28
②设置hive执行引擎为mr:
图2.16 截图29
③输入查询语句:
图2.17 截图30
④查看到执行过程日志记录:
图2.18 截图31
⑤查看到查询结果:
图2.19 截图32
⑥在Ambari中也能看到执行结果为成功:
图2.20 截图33
hive ql语句查询成功。
(9)查看官网的最新的Hue4的新特性英文介绍,进行翻译:
图2.21 截图34
Hue4.0新特性介绍:
界面:
新的布局简化了界面,现在是单页,更加迅捷了。
各种各样的应用程序被归类为四类应用程序:
①编辑器
②浏览器
③仪表板
④调度程序
A)顶部搜索栏和左侧附注功能可以帮助快速搜索和浏览任何数据。
B)每一个用户都可以设置他喜欢的应用程序作为默认的操作/着陆页。
C)更早的版本Hue3仍然可用,然后Hue4百分百向后兼容Hue3。
D)切换到新的Hue4的UI可以在全局级别决定,或者每个用户能够独立地将UI中的一个来回翻转设为默认。
E)所有带有/hue前缀的URL都指向Hue4,没有一个指向Hue3。
F)可以在页面的Hue3版本上删除前缀并着陆,例如/hue/editor(Hue 4)修改为/editor(Hue 3)。