Hive1.2.1(环境搭建-图文详解) + Hadoop-2.6.5(已搭建好)

最新推荐文章于 2021-11-08 11:13:59 发布

这事儿就很秃然

最新推荐文章于 2021-11-08 11:13:59 发布

阅读量509

点赞数 2

分类专栏：集群搭建 Hive散记文章标签： hadoop 大数据 hive 数据库

本文链接：https://blog.csdn.net/To_9426464/article/details/113879642

版权

集群搭建同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

Hive散记

2 篇文章 0 订阅

订阅专栏

Hive1.2.1(环境搭建-图文详解+安装包) + Hadoop-2.6.5(已搭建好)

本文是在Hadoop-2.6.5集群已搭建好情况下搭建Hive1.2.1，JDK 1.8

什么是Hive

Hive：由Facebook开源用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
本质是：将HQL转化成MapReduce程序

本文是主要是环境的搭建，所以不会过多介绍Hive，但也要注意一下几点：
1）Hive处理的数据存储在HDFS，也就是说，我们可以通过HDFS的web界面来查看一些信息
2）Hive分析数据底层的实现是MapReduce，这个在insert插入数据时，打印的日志可以观察到
3）执行程序运行在Yarn上
4）元数据(Metastore)包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等，可以理解为就是所存储数据的数据，可以通过元数据查询到这些数据的一些基本信息

Hive安装地址
1．Hive官网地址
http://hive.apache.org/
2．文档查看地址
https://cwiki.apache.org/confluence/display/Hive/GettingStarted
3．下载地址
http://archive.apache.org/dist/hive/
4．github地址
https://github.com/apache/hive
5. 我的百度网盘软件安装包
百度网盘
链接：https://pan.baidu.com/s/1UpssP6Bm3vodchYPtrKovw
提取码：ve8s

提示：以下是本篇文章正文内容，下面案例可供参考

1、安装(建议全程切换到root权限操作)

建议切换到root权限操作！

1.1 解压缩

解压apache-hive-1.2.1-bin.tar.gz到指定目录下面

[root@Master software]# tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/local/

1.2 修改文件

修改/usr/local/apache-hive-1.2.1-bin/conf目录下的hive-env.sh.template名称为 hive-env.sh
配置HADOOP_HOME路径和HIVE_CONF_DIR路径，添加以下两句：

export HADOOP_HOME=/usr/local/hadoop-2.6.5
export HIVE_CONF_DIR=/usr/local/apache-hive-1.2.1-bin/conf

1.3 Hive基本操作

hive> 是进入到hive数据库客户端的命令提示符
（1）启动hive
(有些小伙伴可能会在启动报错，可以拉到文章最后，有报错及解决办法，看看是不是一样的)

[root@Master apache-hive-1.2.1-bin]# ./bin/hive

（2）查看数据库

hive> show databases;

在这里插入图片描述

（3）打开默认数据库

hive> use default;

在这里插入图片描述

（4）显示default数据库中的表

hive> show tables;

（5）创建一张表

hive> create table student(id int, name string);

在这里插入图片描述

（6）显示数据库中有几张表

hive> show tables;

（7）查看表的结构

hive> desc student;

在这里插入图片描述

（8）向表中插入数据

hive> insert into student values(1,"zhangsan");

通过框出来可以发现，执行的其实是MapReduce Job，只不过此步insert没有redeuc操作
这也是为什么说：Hive分析数据底层的实现是MapReduce
在这里插入图片描述

（9）查询表中数据

hive> select * from student;

在这里插入图片描述

（10）退出hive

hive> quit;

2. MySql安装

安装MySql是为了替换掉Hive默认保存元数据的Derby数据库，Derby数据库有并发访问和性能问题，也就是说，同一个节点不能多开多个Hive客户端的窗口，会有类似以下报错

Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException:
 Unable to instantiate
 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
        at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)
        at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:677)
        at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:621)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
        ...
        at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:3005)
        at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:3024)
        at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:503)
... 8 more

因为Metastore(元数据)默认存储在自带的derby数据库中，所以推荐使用MySQL存储Metastore

2.1 安装包准备

1．查看mysql是否安装，如果安装了，卸载自带的mysql
（1）查看

[root@Master /]# rpm -qa|grep mysql

（2）卸载

[root@Master /]# rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_64

在这里插入图片描述
2. 解压准备好的mysql-libs.zip文件到当前目录，进入到mysql-libs文件夹下

[root@Master software]# unzip mysql-libs.zip

在这里插入图片描述

2.2 安装MySql服务器

安装mysql服务端

[root@Master mysql-libs]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm

这里列出来的是安装时界面出现的部分信息，框出来的信息，提示我们说有一个随机生成的密码给root用户
在这里插入图片描述
2．查看产生的随机密码

[root@Master mysql-libs]# cat /root/.mysql_secret

在这里插入图片描述
3．查看mysql状态

[root@Master mysql-libs]# service mysql status

4．启动mysql

[root@Master mysql-libs]# service mysql start

在这里插入图片描述

2.3 安装MySql客户端

1．安装mysql客户端

[root@Master mysql-libs]# rpm -ivh MySQL-client-5.6.24-1.el6.x86_64.rpm

在这里插入图片描述
2．链接mysql(这里的登陆密码是刚刚查看的那个随机生成的密码)

[root@Master mysql-libs]# mysql -uroot -paSop3tkUeA8IFhtj

在这里插入图片描述
3．修改密码(自定义密码，自己记得住就行)，然后退出

mysql> SET PASSWORD=PASSWORD('123456');
mysql> exit

在这里插入图片描述
4．用新密码登录

[root@Master mysql-libs]# mysql -uroot -p123456

在这里插入图片描述

2.4 MySql中user表中主机配置

目的：配置只要是root用户+密码，在任何主机上都能登录MySQL数据库
1．进入mysql

[root@Master mysql-libs]# mysql -uroot -p123456

2．显示数据库

mysql>show databases;

在这里插入图片描述
3．使用mysql数据库

mysql>use mysql;

在这里插入图片描述
4．展示mysql数据库中的所有表(最后有一个user表)

mysql>show tables;

在这里插入图片描述
5．展示user表的结构(user表中有很多字段，而我们此步骤只需关注以下3个字段即可j)

mysql>desc user;

在这里插入图片描述
6．查询user表

mysql>select User, Host, Password from user;

在这里插入图片描述

7．修改user表，把Host表内容修改为%

mysql>update user set host='%' where host='localhost';

在这里插入图片描述

8．因为%就是匹配任意主机，所以移除除了root的其他host，以防有时会匹配到其它主机，出现报错

mysql> delete from user where Host='master';
mysql> delete from user where Host='127.0.0.1';
mysql> delete from user where Host='::1';

在这里插入图片描述
9．刷新、退出

mysql> flush privileges;
mysql> quit;

在这里插入图片描述
可以用数据库可视化连接工具 Navicat Premium 12尝试连接数据库

2.5 Hive元数据配置到MySql

1．回到刚刚的mysql-libs目录下，解压mysql-connector-java-5.1.27.tar.gz驱动包

[root@Master mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz

在这里插入图片描述
2．进入解压好的/mysql-connector-java-5.1.27目录，将mysql-connector-java-5.1.27-bin.jar拷贝到到hive的安装目录下的lib目录中

[root@Master mysql-connector-java-5.1.27]# cp ./mysql-connector-java-5.1.27-bin.jar /usr/local/apache-hive-1.2.1-bin/lib/

在这里插入图片描述

2.6 配置Metastore到MySql

1．在/usr/local/pache-hive-1.2.1-bin/conf目录下创建一个hive-site.xml

[root@Master conf]# touch hive.site.xml
[root@Master conf]# vi hive-site.xml

在这里插入图片描述
2．根据官方文档配置参数(这里是基础配置，可以自己添加其他服务的配置)，拷贝数据到hive-site.xml文件中(注意修改自己的密码和链接驱动时主机地址)
https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
	  <name>javax.jdo.option.ConnectionURL</name>
	  <value>jdbc:mysql://Master:3306/metastore?createDatabaseIfNotExist=true</value>
	  <description>JDBC connect string for a JDBC metastore</description>
	</property>

	<property>
	  <name>javax.jdo.option.ConnectionDriverName</name>
	  <value>com.mysql.jdbc.Driver</value>
	  <description>Driver class name for a JDBC metastore</description>
	</property>

	<property>
	  <name>javax.jdo.option.ConnectionUserName</name>
	  <value>root</value>
	  <description>username to use against metastore database</description>
	</property>

	<property>
	  <name>javax.jdo.option.ConnectionPassword</name>
	  <value>123456</value>
	  <description>password to use against metastore database</description>
	</property>
</configuration>

在这里插入图片描述
3．配置完毕后，就启动hive，如果启动hive异常，可以重新启动虚拟机。(重启后，别忘了启动hadoop集群)

3. 多窗口启动Hive测试

1．先启动MySQL

[root@Master ~]# mysql -uroot -p123456

查看有几个数据库

mysql> show databases;

在这里插入图片描述
2．再次打开多个窗口，分别启动hive

[root@Master apache-hive-1.2.1-bin]# ./bin/hive

3．启动hive后，回到MySQL窗口查看数据库，显示增加了metastore数据库

mysql> show databases;

在这里插入图片描述
至此，Hive环境的搭建已基本完成。可以愉快的玩耍了~~~
创建一个新表stu，有两个字段id,name，并指定读取文件时的分隔符 ‘\t’

hive> show databases; 
hive> use default;
// 此处规定了所读取文件中字段间的分隔符为一个 'Tab' 制表符 '\t'，如果格式不对，那么导入后查询结果会显示Null
hive> create table stu(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
hive> show tables;

因为我们在上一步更换了保存元数据的数据库，所以一开始测试时创建的student表已经读取不到，但仍然可以在HDFS文件系统中找到，默认的Derby数据库没有删
在这里插入图片描述
然后插入一条数据测试下

hive> insert into stu values(001,"boy");

在这里插入图片描述

hive> select * from stu;

在这里插入图片描述

4. 其它操作

4.1 将本地文件(或者HDFS文件)导入Hive

在Hive安装目录下创建datas目录，并在datas目录下创建一个stu.txt文件，文件内容如下(字段间分隔符与创表时保持一致，我这里是 ‘\t’)：

001	zhangsan
002	lisi
003	wangwu

导入本地文件

hive> load data local inpath '/usr/local/apache-hive-1.2.1-bin/datas/stu.txt' into table stu;

查询
在这里插入图片描述
导入HDFS文件
先将stu.txt文件上传到HDFS的根目录

[root@Master datas]# hdfs dfs -put ./stu.txt /

hive> load data inpath '/stu.txt' into table stu;;

在这里插入图片描述

4.2 通过工具及Web查看Hive的相关内容

Navicat Premium 12
默认数据库的存储位置(存储在HDFS中)
在这里插入图片描述
测试时，所创建的表

HDFS的Web界面。默认端口号是50070

Hive源数据保存的位置，以 stu_copy_1.txt 为例，可以看到它的Block ID

以下是我这边找到的路径，感兴趣的可以自己找找

/usr/local/hadoop-2.6.5/dfs/data/current/BP-264096608-192.168.110.114-1602433100565/current/finalized/subdir0/subdir13

4.3 查询后信息显示配置

在hive-site.xml文件中添加如下配置信息，就可以实现显示当前数据库，以及查询表的头信息配置

<property>
	<name>hive.cli.print.header</name>
	<value>true</value>
</property>

<property>
	<name>hive.cli.print.current.db</name>
	<value>true</value>
</property>

效果：
在这里插入图片描述

4.4 Hive运行日志信息配置

1．Hive的log默认存放在/tmp/root/hive.log目录下（当前用户名下），因为我使用root安装的hive
在这里插入图片描述
2．修改hive的log存放日志到/usr/local/apache-hive-1.2.1-bin/logs
（1）修改/usr/local/apache-hive-1.2.1-bin/conf/hive-log4j.properties.template文件名称为hive-log4j.properties

[root@Master conf]# mv hive-log4j.properties.template hive-log4j.properties

（2）在hive-log4j.properties文件中修改log存放位置

hive.log.dir=/usr/local/apache-hive-1.2.1-bin/logs

在这里插入图片描述
然后启动下hive，日志保存路径已经改变

5. 首次启动Hive时报错及解决方法

在步骤1.3 Hive基本操作可能会有小伙伴的Hive启动不成功，报以下报错：
报错1：
启动Hive时org/apache/hadoop/hive/ql/CommandNeedRetryException问题
在这里插入图片描述
报错2：
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf  
        at java.lang.Class.forName0(Native Method)  
        at java.lang.Class.forName(Class.java:274)  
        at org.apache.hadoop.util.RunJar.main(RunJar.java:205)  
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf  
        at java.net.URLClassLoader$1.run(URLClassLoader.java:366)  
        at java.net.URLClassLoader$1.run(URLClassLoader.java:355)  
        at java.security.AccessController.doPrivileged(Native Method)  
        at java.net.URLClassLoader.findClass(URLClassLoader.java:354)  
        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)

以上两种报错的原因是：我有安装Hbase，并用Habse API操作Hbase，但那时出现过调用找不到hbase包的问题，于是在 hadoop-env.sh ,引入hbase包，当时写法是：

export HADOOP_CLASSPATH=HADOOP_CLASSPATH:/usr/local/hbase-1.2.2/lib/*

在这里插入图片描述

这么写将上面的$HADOOP_CLASSPATH覆盖掉，因此会报错，现在修改为：

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/usr/local/hbase-1.2.2/lib/*

以上两种报错不是同时发生的，第一个是我中午吃饭前报错，然后我把集群关了；第二个是我吃饭后，重开集群报错，哈哈哈~~~

我这边还更换了一个Jar包，在其它博文说是YARN中的jline版本过低，Jline包版本不一致的问题，需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop安装目录下/share/hadoop/yarn/lib/中的jline-0.9.94.jar，当然我这里因为没有报错信息，所以我就没有截图了，但Jar包却是换了，哈哈哈~~先用着，出了问题再说~，附上我的操作：
在这里插入图片描述

总结

文章也是仅作知识点的记录，欢迎大家指出错误，一起探讨~~~

这事儿就很秃然

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hive1.2.1(环境搭建-图文详解) + Hadoop-2.6.5(已搭建好)

Hadoop-2.6.5 + Hive1.2.1提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop-2.6.5 + Hive1.2.1前言一、安装(建议全程切换到root权限操作)1.1 解压缩修改文件Hive基本操作2. MySql安装2.1 安装包准备2.2．安装MySql服务器2.3 安装MySql客户端2.4 MySql中user表中
复制链接

扫一扫