Hive安装、Hive基本操作与常见属性配置_配置hive-env.sh都涉及到哪些属性?-CSDN博客

本文链接：https://blog.csdn.net/qq_61645895/article/details/122563272

1、Hive安装地址

1．Hive官网地址

http://hive.apache.org/

2．文档查看地址

https://cwiki.apache.org/confluence/display/Hive/GettingStarted

3．下载地址

http://archive.apache.org/dist/hive/

4．github地址

https://github.com/apache/hive

2、Hive安装部署

1．Hive安装及配置

这里使用3.1.0版本。

（1）把apache-hive-3.1.0-bin.tar.gz上传到linux的/export/softwares目录下

（2）解压apache-hive-3.1.0-bin.tar.gz到/export/server/目录下面

[root@hadoop101 softwares]# tar -zxvf apache-hive-3.1.0-bin.tar.gz -C /export/servers/

（3）修改apache-hive-3.1.0-bin.tar.gz的名称为hive

[root@hadoop101 softwares]# cd /export/servers/

[root@hadoop101 servers]# mv apache-hive-3.1.0-bin/ hive

（4）修改/export/servers/hive/conf目录下的hive-env.sh.template名称为hive-env.sh

[root@hadoop101 servers]# cd hive/conf/

[root@hadoop101 conf]# cp hive-env.sh.template hive-env.sh

（5）配置hive-env.sh文件

[root@hadoop101 conf]# vim hive-env.sh

（a）配置HADOOP_HOME路径

# Set HADOOP_HOME to point to a specific hadoop install directory

# HADOOP_HOME=${bin}/../../hadoop

export HADOOP_HOME=/export/servers/hadoop-3.1.2

（b）配置HIVE_CONF_DIR路径

# Hive Configuration Directory can be controlled by:

# export HIVE_CONF_DIR=

export HIVE_CONF_DIR=/export/servers/hive/conf

2、Hadoop集群配置

（1）必须启动hdfs和yarn

[root@hadoop101 hadoop-3.1.2]# sbin/start-dfs.sh

[root@hadoop102 hadoop-3.1.2]# sbin/start-yarn.sh

（2）在HDFS上创建/tmp和/user/hive/warehouse两个目录并修改他们的同组权限可写

[root@hadoop101 hive]# cd /export/servers/hadoop-3.1.2/

[root@hadoop101 hadoop-3.1.2]# bin/hadoop fs -mkdir /tmp

[root@hadoop101 hadoop-3.1.2]# bin/hadoop fs -mkdir -p /user/hive/warehouse

[root@hadoop101 hadoop-3.1.2]# bin/hadoop fs -chmod g+w /tmp

[root@hadoop101 hadoop-3.1.2]# bin/hadoop fs -chmod g+w /user/hive/warehouse

注：/user/hive/warehouse用于存储真正的数据。（元数据是存储在MySQL上的）

注：g+w中的g指group，用户组权限（对应456标号），w为写权限。

注：也可以通过浏览器访问 http://192.168.91.101:50070/explorer.html#/ ，在网页上创建目录。

3、MySQL安装

略

注意配置Hive一定要配置MySQL数据库。现在没人用derby这个东西了。

4、Hive元数据配置到MySQL

1. 驱动拷贝

（1）．上传mysql-connector-java-5.1.38.jar。

[root@hadoop101 hadoop-3.1.2]# cd /export/softwares/

[root@hadoop101 softwares]# rz –E

（2）．将我们准备好的mysql-connector-java-5.1.38.jar 这个jar包直接上传到 /export/servers/apache-hive-3.1.0-bin/lib 这个目录下即可

[root@hadoop101 softwares]# cp mysql-connector-java-5.1.38.jar /export/servers/hive/lib/

注意mysql-connector-java的版本5.1是对应mysql5.6、5.7、8.0的。见 mysql-connector-java与Mysql、Java的对应版本_L, there!-CSDN博客_mysql-connector-java 版本

只不过官方更推荐MySQL5.6以上使用connector/j 8.0。

2. 配置hive到MySQL

（1）．在/export/servers/hive/conf目录下创建一个hive-site.xml

[root@hadoop101 softwares]# cd /export/servers/hive/conf/

[root@hadoop101 conf]# vim hive-site.xml

（2）．根据官方文档配置参数，拷贝数据到hive-site.xml文件中

https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://hadoop101:3306/hive?createDatabaseIfNotExist=true&useSSL=false</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>hive.metastore.schema.verification</name>

<value>false</value>

</property>

<name>datanucleus.schema.autoCreateAll</name>

</property>

<name>hive.server2.thrift.bind.host</name>

<value>hadoop101</value>

</property>

<name>hive.server2.logging.operation.enabled</name>

<value>false</value>

</property>

<name>hive.server2.active.passive.ha.enable</name>

</property>

<!--

<name>hive.metastore.uris</name>

<value>thrift://hadoop101:9083</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>hive.metastore.local</name>

<value>false</value>

<description>this is local store</description>

</property>

-->

</configuration>

（3）．配置完毕后，保险起见，可以重新启动虚拟机。（重启后，别忘了启动hadoop集群和mapreduce）

3. 多窗口启动Hive测试

（1）．先启动MySQL

[root@hadoop101 softwares]# mysql -uroot –p123456

查看有几个数据库

mysql> show databases;

（2）．启动hive需要执行初始化命令：（可在101开另一个终端执行）

[root@hadoop101 hive]# bin/schematool -dbType mysql -initSchema

这里出现了很多空行……

查看初始化后的信息

[root@hadoop101 hive]# bin/schematool -dbType mysql -info

如果没有显示metastore，观察是否版本不匹配。

（3）．回到MySQL窗口查看数据库，显示增加了hive数据库

mysql> show databases;

mysql> use hive;

mysql> show tables;

查看DBS表（注意表名必须大写）

mysql> select * from DBS;

此时表是空的。

在另一个终端启动hive

[root@hadoop101 hive]# bin/hive

然后再查看DBS表

mysql> select * from DBS;

可以看到，hive中的default数据库的存储位置在hadoop的/user/hive/warehouse上。

（在hive终端输入quit或exit均可退出hive。

5、Hive基本操作

可以在/etc/profile中把hive添加到环境变量PATH中

export HIVE_HOME=/export/servers/hive

export PATH=$HIVE_HOME/bin:$PATH

修改完成之后记得执行：source /etc/profile让环境变量配置生效，

source /etc/profile

（1）启动hive

[root@hadoop101 hive]# hive # 配置profile后可以直接输入hive

如果出现如下信息，则表示成功

注意：可能会出现如下错误。

这是因为hive版本需要匹配hadoop版本，因此hive版本不能太旧。

（2）查看数据库

hive> show databases;

如果出现如下信息，则表示成功

注意OK是返回值，表示查询成功； Time是指查询所需要的时间。所以这里只有一个数据库：default。

如果出现如下错误：

可能是Hive版本不匹配。

（3）打开默认数据库

hive> use default;

（4）显示default数据库中的表

hive> show tables;

目前default数据库中没有表。

（5）创建一张表

hive> create table student(id int, name string);

（6）显示数据库中有几张表

hive> show tables;

目前default数据库中有一张表student。

（7）查看表的结构

hive> desc student;

目前student表中有两个字段id和name。

（8）向表中插入数据

hive> insert into student values(1,"zhangsan");

可尝试插入多个数据（建议4个以上）

hive> insert into student values

(2,"lisi"),

(3,"wangwu"),

(4,"zhaoliu");

注意一定要启动三个集群，不然会卡在Kill Command这地方。

注意：如果出现如下信息表示三台虚拟机时钟不同步。

时钟不同步无法插入数据，参考后面的解决方案。

（9）查询表中数据

hive> select * from student;

注意默认不是按id顺序排列。

（10）退出hive

hive> quit;

说明：（查看hive在hdfs中的结构）

数据库：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹

表：在hdfs中表现所属db目录下一个文件夹，文件夹中存放该表中的具体数据

6、将本地文件导入Hive案例

需求

将本地/export/servers/datas/student.txt这个目录下的数据导入到hive的student(id int, name string)表中。

1．数据准备

在/export/servers/datas这个目录下准备数据

（1）在/export/servers/目录下创建datas

[root@hadoop101 ~]# cd /export/servers/

[root@hadoop101 servers]# mkdir datas

（2）在/export/servers/datas/目录下创建student.txt文件并添加数据

[root@hadoop101 servers]# cd datas/

[root@hadoop101 datas]# touch student.txt

[root@hadoop101 datas]# vi student.txt

student.txt内容如下：

1001 zhangshan

1002 lishi

1003 zhaoliu

注意以tab键间隔。

注意第3行最后不要换行，否则导入hive后会多一行NULL。

2．Hive实际操作

（1）启动hive

[root@hadoop101 ~]# cd /export/servers/hive/

[root@hadoop101 hive]# bin/hive

（2）显示数据库

hive> show databases;

（3）使用default数据库

hive> use default;

（4）显示default数据库中的表

hive> show tables;

（5）删除已创建的student表

hive> drop table student;

（6）创建student表, 并声明文件分隔符’\t’

hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

（7）加载/export/servers/datas/student.txt 文件到student数据库表中。

hive> load data local inpath '/export/servers/datas/student.txt' into table student;

（8）Hive查询结果

hive> select * from student;

3．遇到的问题

再打开一个客户端窗口启动hive，会产生java.sql.SQLException异常。

Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException:

Unable to instantiate

org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)

at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:677)

at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:621)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:606)

at org.apache.hadoop.util.RunJar.run(RunJar.java:221)

at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1523)

at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.<init>(RetryingMetaStoreClient.java:86)

at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:132)

at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:104)

at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:3005)

at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:3024)

at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:503)

... 8 more

原因是，Metastore默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore;

7、HiveJDBC访问

考虑到HiveServer无法处理来自多个客户端的并发请求，HiveServer2对HiveServer进行了重写，从Hive 0.11.0版本开始。建议使用HiveServer2。

HiveServer2支持新的命令行Shell，称为Beeline。

1. 启动hiveserver2服务

[root@hadoop101 hive]# bin/hiveserver2

注意此时终端并没有退出，下面的代码需要启动另一个终端执行。

PS. 也可以输入如下命令，在同一个终端执行服务端与客户端（初学者不建议）。

[root@hadoop101 hive]# nohup bin/hiveserver2 > s2.log 2>&1

[root@hadoop101 hive]# nohup bin/hiveserver2 > /dev/null 2>&1

2. 启动beeline

[root@hadoop101 hive]# bin/beeline

进入beeline命令行。

3. 连接hiveserver2

beeline> !connect jdbc:hive2://hadoop101:10000（回车）

Connecting to jdbc:hive2://hadoop101:10000

Enter username for jdbc:hive2://hadoop101:10000: root（回车）

Enter password for jdbc:hive2://hadoop101:10000: （直接回车）

Connected to: Apache Hive (version 3.1.0)

Driver: Hive JDBC (version 3.1.0)

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://hadoop101:10000> show databases;

+----------------+--+

| database_name |

+----------------+--+

| default |

| hive_db2 |

+----------------+--+

如果出现连接错误，可以查看log文件（/tmp/root/hive.log）

比如出现了root is not allowed to impersonate root之类的错误。

可以在hadoop的core-site.xml（/export/servers/hadoop-3.1.2/etc/hadoop/core-site.xml）中增加如下配置信息

<name>hadoop.proxyuser.root.groups</name>

<description>Allow the superuser oozie to impersonate any members of the group group1 and group2</description>

</property>

<name>hadoop.proxyuser.root.hosts</name>

<description>The superuser can connect only from host1 and host2 to impersonate a user</description>

</property>

并重启，即可解决。

8、Hive常用交互命令

[root@hadoop101 hive]# bin/hive -help

usage: hive

-d,--define <key=value> Variable subsitution to apply to hive

commands. e.g. -d A=B or --define A=B

--database <databasename> Specify the database to use

-e <quoted-query-string> SQL from command line

-f <filename> SQL from files

-H,--help Print help information

--hiveconf <property=value> Use value for given property

--hivevar <key=value> Variable subsitution to apply to hive

commands. e.g. --hivevar A=B

-i <filename> Initialization SQL file

-S,--silent Silent mode in interactive shell

-v,--verbose Verbose mode (echo executed SQL to the console)

1）．“-e”不进入hive的交互窗口执行sql语句

[root@hadoop101 hive]# bin/hive -e "select id from student;"

2）．“-f”执行脚本中sql语句

（1）在/export/servers/datas目录下创建hivef.sql文件

[root@hadoop101 hive]# cd /export/servers/datas/

[root@hadoop101 datas]# vim hivef.sql

文件中写入正确的sql语句

select * from student;

（2）执行文件中的sql语句

[root@hadoop101 hive]# bin/hive -f /export/servers/datas/hivef.sql

（3）执行文件中的sql语句并将结果写入文件中

[root@hadoop101 hive]# bin/hive -f /export/servers/datas/hivef.sql > /export/servers/datas/hive_result.log

9、Hive其他命令操作

1．退出hive窗口：

hive(default)>exit;

hive(default)>quit;

在新版的hive中没区别了，在以前的版本是有的：

exit:先隐性提交数据，再退出；

quit:不提交数据，退出；

2．在hive cli命令窗口中如何查看hdfs文件系统

hive(default)>dfs -ls /;

该命令也可以在jdbc:hive2://hadoop101:10000中执行

0: jdbc:hive2://hadoop101:10000> dfs -ls /;

3．在hive cli命令窗口中如何查看本地文件系统

hive(default)>! ls /export/servers/datas;

注意前面的感叹号！。Hive下执行Linux命令必须加感叹号。

该命令在jdbc:hive2://hadoop101:10000中无法执行

4．查看在hive中输入的所有历史命令

（1）进入到当前用户的主目录/root

（2）查看. hivehistory文件

[root@hadoop101 hive]# cd ~

[root@hadoop101 ~]# cat .hivehistory

10、Hive常见属性配置

1. Hive数据仓库位置配置

1）Default数据仓库的最原始位置是在hdfs上的：/user/hive/warehouse路径下。

2）在仓库目录下，没有对默认的数据库default创建文件夹。如果某张表属于default数据库，直接在数据仓库目录下创建一个文件夹。

3）修改default数据仓库原始位置（将hive-default.xml.template如下配置信息拷贝到hive-site.xml文件中）。

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

<description>location of default database for the warehouse</description>

</property>

配置同组用户有执行权限

[root@hadoop121 hadoop-3.1.2]# bin/hdfs dfs -chmod g+w /user/hive/warehouse

2. 查询后信息显示配置

1）在hive-site.xml文件中添加如下配置信息，就可以实现显示当前数据库，以及查询表的头信息配置。

<name>hive.cli.print.header</name>

</property>

<name>hive.cli.print.current.db</name>

</property>

2）重新启动hive（建议执行stop-all.sh和start-all.sh），对比配置前后差异。

（1）配置前，如图所示

（2）配置后，如图所示

建议使用前面的模板。

3. Hive运行日志信息配置

1）．Hive的log默认存放在/tmp/root/hive.log目录下（当前用户名下）

2）．修改hive的log存放日志到/export/servers/hive/logs

（1）修改/export/servers/hive/conf/hive-log4j2.properties.template文件名称为hive-log4j2.properties。

hive-log4j.properties

[root@hadoop101 hive]# cd conf/

[root@hadoop101 conf]# cp hive-log4j2.properties.template hive-log4j2.properties

（2）在hive-log4j.properties文件中修改log存放位置

property.hive.log.dir=/export/servers/hive/logs

4. 参数配置方式

1）．查看当前所有的配置信息

hive> set;

（太多了就不列出来了）

2）．参数的配置三种方式

（1）配置文件方式

默认配置文件：hive-default.xml

用户自定义配置文件：hive-site.xml

注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。

（2）命令行参数方式

启动Hive时，可以在命令行添加-hiveconf param=value来设定参数。

例如：

[root@hadoop102 hive]# bin/hive -hiveconf mapred.reduce.tasks=10;

注意：仅对本次hive启动有效

查看参数设置：

hive (default)> set mapred.reduce.tasks;

（3）参数声明方式

可以在HQL中使用SET关键字设定参数

例如：

hive (default)> set mapred.reduce.tasks=100;

注意：仅对本次hive启动有效。

查看参数设置

hive (default)> set mapred.reduce.tasks;

上述三种设定方式的优先级依次递增。即配置文件<命令行参数<参数声明。注意某些系统级的参数，例如log4j相关的设定，必须用前两种方式设定，因为那些参数的读取在会话建立以前已经完成了。