Hive大总结！！！

最新推荐文章于 2024-08-20 15:35:01 发布

Biubiubiu!!

最新推荐文章于 2024-08-20 15:35:01 发布

阅读量5.6k

点赞数 8

分类专栏：大数据BigData

本文链接：https://blog.csdn.net/qq_40246175/article/details/105168695

版权

本文详尽介绍了 Apache Hive，一个基于 Hadoop 的数据仓库工具，用于处理和分析大规模结构化数据。Hive 提供类 SQL 查询语言 HQL，支持 ETL、报表生成和数据分析，尤其适用于大数据集的批处理。文章深入讨论了Hive的特性、架构、安装配置、数据处理流程、查询优化以及企业级应用和优化策略，包括分区表、分桶表、数据类型、查询操作、视图和索引等。此外，还探讨了Hive与传统数据库的差异，如延迟、可扩展性和数据规模。

摘要由CSDN通过智能技术生成

整个hive如果要总结的非常全面的话，东西太多了，我这里自认为已经非常全面了。。
当然肯定会有一些瑕疵，如有不足之处，欢迎私信评论提出意见~~
觉得有帮助的，请多多支持博主，点赞关注哦~

文章目录

Hive

Hive

一、Hive简介及核心概念

官网：https://hive.apache.org/

1、Hive概述

Hive是构建与Hadoop之上的数据仓库软件，能够有效的读取、写入和管理大型数据集合，并且支持通过SQL查询分析数据。（Hive是基于Hadoop的，Hadoop数据处理任务本质上是MapReduce，所以HiveSQL执行本质上都是MapReduce任务）。

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。
Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。
本质是：将 HQL 转化成 MapReduce 程序
1）Hive 处理的数据存储在 HDFS
2）Hive 分析数据底层的实现是 MapReduce
3）执行程序运行在 Yarn 上

2、Hive特点

2.1、优点

可以通过SQL完成ETL（抽取/转换/加载）任务、生成报表、以及数据分析。避免复杂的MapReduce的开发，能够节省大量开发成本。
Hive本质上作为一个工具，能够支持多种数据分析引擎。Hive可以支持Hadoop的MapReduce分析引擎，也可以支持Spark等分析引擎。
Hive提供JDBC服务，可以通过JDBC连接Hive操作HDFS数据，并且可以整合多种BI可视化工具（DBeaver等）。
Hive可以通过元数据直接访问HDFS上的数据。
Hive能够支持多种数据类型和文件格式。
Hive支持自定义函数，用户可以根据需求定义自己的函数进行扩展。
Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求不高的场合。
Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。

2.2、缺点

Hive 不支持事务操作。
HiveSQL本身表达能力有限，不能够进行迭代式计算以及数据挖掘。
Hive操作默认基于MapReduce引擎，延迟比较高不适用于交互式查询，并且基于SQL调优困难。
Hive 的效率比较低：Hive 自动生成的 MapReduce 作业，通常情况下不够智能化；Hive 调优比较困难，粒度较粗。

2.3、Hive使用场景

Hive可构建基于Hadoop的数据仓库。
Hive适合大数据集的批处理作业，比如行为日志分析、多维数据分析。
海量结构化数据离线分析。

3、Hive基本架构原理

在这里插入图片描述
如图中所示，Hive 通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的 Driver，结合元数据(MetaStore)，将这些指令翻译成 MapReduce，提交到 Hadoop 中执行，最后，将执行返回的结果输出到用户交互接口。

从此架构图可以看出，主要包含四个部分：

Client 客户端：Hive命令 JDBC、UI操作等，用于向系统提交查询和其他操作。用户接口：CLI（hive shell）、JDBC/ODBC(java 访问 hive)、WEBUI（浏览器访问 hive）。
元数据(Metastore)端：主要存储表结构、类型、字段、数据存储位置等信息。默认存储在自带的 derby 数据库中，推荐使用 MySQL 存储 Metastore
Hadoop端：使用 HDFS 进行存储，使用 MapReduce 进行计算。
驱动器(Driver)端：接受查询、并且构建HiveSession回话，并且提供客户端接口相关API。
- 解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL 语义是否有误。
- 编译器（Physical Plan）：将 AST 编译生成逻辑执行计划。
- 优化器（Query Optimizer）：对逻辑执行计划进行优化。
- 执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是 MR/Spark。

4、数据处理流程

客户端提交查询或其他操作命令给Driver端
Driver端创建Session会话，并且将查询发送到编译器以生成执行计划（抽象语法树AST）
编译器从元存储中获取必要的元数据，并且对抽象语法树AST进行类型检查、表达式检查、分区裁剪等
编译器生成逻辑执行计划，该逻辑计划对应不同的阶段Stage，每个Stage都对应一个MapReduce的Job（聚合操作）、或者是对元数据操作（desc 操作）、或者HDFS操作（dfs）
执行器将逻辑执行计划提交给hadoop集群执行数据处理，并且将最终数据反馈到Driver端或者其他存储系统。

5、Hive 和数据库比较

由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language)，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。
本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但是 Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。

5.1、查询语言

由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。

5.2、数据存储位置

Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。
而数据库则可以将数据保存在块设备或者本地文件系统中。

5.3、数据更新

由于 Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不建议对数据的改写，所有的数据都是在加载的时候确定好的。
而数据库中的数据通常是需要经常进行修改的，因此可以使用INSERT INTO … VALUES 添加数据，使用UPDATE … SET修改数据。

5.4、索引

Hive 在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些 Key 建立索引。Hive 要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于 MapReduce 的引入， Hive 可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive 仍然可以体现出优势。
数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。
由于数据的访问延迟较高，决定了 Hive 不适合在线数据查询。

5.5、执行

Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。
而数据库通常有自己的执行引擎。

5.6、执行延迟

Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。
相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。

5.7、可扩展性

由于 Hive 是建立在 Hadoop 之上的，因此 Hive 的可扩展性很强是和 Hadoop 的可扩展性是一致的（世界上最大的 Hadoop 集群在 Yahoo!，2009 年的规模在 4000 台节点左右）。
而数据库由于 ACID 语义的严格限制，扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。

5.8、数据规模

由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据；
对应的，数据库可以支持的数据规模较小。

二、Hive安装及配置

1、Hive 安装地址

Hive 官网地址：http://hive.apache.org/
文档查看地址：https://cwiki.apache.org/confluence/display/Hive/GettingStarted
下载地址：http://archive.apache.org/dist/hive/
github 地址：https://github.com/apache/hive

2、Hive 安装部署

Hive是基于Hadoop的，安装之前的环境需要Hadoop环境，伪分布或完全分布或者HA都可以。

上传压缩包到Linux
解压到相应目录
修改配置文件

#修改配置文件
cp hive-env.sh.template hive-env.sh
#配置文件hive-env.sh
#配置HADOOP_HOME路径
export HADOOP_HOME=${
   HADOOP_HOME}
#配置HIVE_CONF_DIR路径
export HIVE_CONF_DIR=${
   HIVE_HOME}/conf
#修改日志配置 有助于以后排查错误
cp hive-exec-log4j.properties.template hive-exec-log4j.properties
cp hive-log4j.properties.template hive-log4j.properties
#修改日志文件存储路径
hive.log.dir=/opt/hive/log

启动Hadoop集群
配置环境变量

vim /etc/profile
export HIVE_HOME=/opt/hive
export PATH=$PATH:$HIVE_HOME/bin
source /etc/profile

Hive基本操作

#（1）启动 hive
[hadoop01@biubiubiu01 hive]$ hive
#（2）查看数据库
hive>show databases;
#（3）打开默认数据库
hive>use default;
#（4）显示 default 数据库中的表
hive>show tables;
#（5）创建一张表
hive> create table student(id int, name string) ;
#（6）显示数据库中有几张表
hive>show tables;
#（7）查看表的结构
hive>desc student;
#（8）向表中插入数据
hive> insert into student values(1000,"ss");
#（9）查询表中数据
hive> select * from student;
#（10）退出 hive
hive> quit;

Hive常见的客户端配置

#查看hive-defualt.xml 搜索/hive.cli，能够得到客户端的配置信息
#在hive/conf文件目录下创建hive-site.xml,并将一下配置赋值到hive-site.xml
<configuration>
<property>
	<name>hive.cli.print.current.db</name>
	<value>true</value>
	<description>在命令行中显示当前所使用的数据库</description>
</property>
<property>
	<name>hive.cli.print.header</name>
	<value>true</value>
	<description>查询数据时 显示出列的名字</description>
</property>
</configuration>

Hive操作的数据仓库存储位置

<property>
	<name>hive.metastore.warehouse.dir</name>
	<value>/user/hive/warehouse</value>
	<description>默认数据仓库存储的位置，该位置为HDFS上的路径</description>
</property>
注意：需要配置用户组和用户执行权限
hadoop fs -chmod g+w /user/hive/warehouse

Hive日志解析
Hive客户端启动时主要做了两件事：

创建session会话，并且创建保存会话状态的文件目录
创建并初始化元数据存储信息，默认创建default数据库，默认使用DERBY嵌入式数据库元数据

3、元数据配置

3.1、默认元数据存储

Hive元数据默认存储在Derby（嵌入式数据库中）

主要应用于单元测试
一次只能连接一个用户

3.2、Hive支持远程关系型数据存储

推荐使用Mysql存储Metastore

3.3、Mysql安装

我这里以mysql8.0举例，大概说明，如有安装问题，自行百度都可以解决。

MySQL 8.0新特性：
1、默认字符集由latin1变为utf8mb4
2、MyISAM系统表全部换成InnoDB表
3、自增主键AUTO_INCREMENT的值支持持久化
4、InnoDB表的DDL支持事务完整性
5、支持在线修改全局参数并持久化
6、新增降序索引
7、对于group by字段不再隐式排序
8、大幅改进了对JSON的支持
9、支持redo和undo日志加密
10、InnoDB select for update跳过锁等待
11、在SQL语法中增加SET_VAR语法
12、使用INVISIBLE关键字在创建表或进行表变更中设置索引是否可见
13、支持直方图
14、新增innodb_dedicated_server参数
15、日志分类更详细
16、undo空间自动回收
17、新增资源组功能，用于调控线程优先级及绑定CPU
18、增加角色管理

1、关闭firewalld和SELinux

#关闭防火墙
[hadoop01@biubiubiu01 ~]$ sudo systemctl stop firewalld

#修改配置文件/etc/selinux/config,将其中SELINUX设置为disabled
[hadoop01@biubiubiu01 ~]$ sudo vim /etc/selinux/config
# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
#SELINUX=enforcing
SELINUX=disabled
# SELINUXTYPE= can take one of three values:
#     targeted - Targeted processes are protected,
#     minimum - Modification of targeted policy. Only selected processes are protected. 
#     mls - Multi Level Security protection.
SELINUXTYPE=targeted

#查看状态
[hadoop01@biubiubiu01 ~]$ sestatus
SELinux status:                 enabled
SELinuxfs mount:                /sys/fs/selinux
SELinux root directory:         /etc/selinux
Loaded policy name:             targeted
Current mode:                   enforcing
Mode from config file:          disabled
Policy MLS status:              enabled
Policy deny_unknown status:     allowed
Max kernel policy version:      31

2、删除CentOS 7.x自带的MariaDB

[hadoop01@biubiubiu01 ~]$ rpm -qa | grep -i mariadb
mariadb-libs-5.5.60-1.el7_5.x86_64
[hadoop01@biubiubiu01 ~]$ sudo rpm -e --nodeps mariadb-libs-5.5.60-1.el7_5.x86_64

3、删除原有的MySQL

1、查看mysql安装了哪些东西
[hadoop01@biubiubiu01 ~]$ rpm -qa | grep -i mysql

2、开始卸载
[hadoop01@biubiubiu01 ~]$ sudo yum -y remove mysql57-community-release-el7-11.noarch
[hadoop01@biubiubiu01 ~]$ sudo yum -y remove mysql-community-server-5.7.29-1.el7.x86_64
[hadoop01@biubiubiu01 ~]$ sudo yum -y remove mysql-community-common-5.7.29-1.el7.x86_64
[hadoop01@biubiubiu01 ~]$ sudo yum -y remove mysql-community-client-5.7.29-1.el7.x86_64
[hadoop01@biubiubiu01 ~]$ sudo yum -y remove mysql-community-libs-5.7.29-1.el7.x86_64

3、查看是否卸载完成
[hadoop01@biubiubiu01 ~]$ rpm -qa | grep -i mysql

4、查找mysql相关目录
[hadoop01@biubiubiu01 ~]$ sudo find / -name mysql

5、删除相关目录
[hadoop01@biubiubiu01 ~]$ sudo rm -rf /etc/logrotate.d/mysql /etc/selinux/targeted/active/modules/100/mysql /var/lib/mysql /var/lib/mysql/mysql /usr/bin/mysql /usr/lib64/mysql /usr/share/mysql

6、删除/etc/my.cnf
[hadoop01@biubiubiu01 ~]$ sudo rm -rf /etc/my.cnf

7、删除/var/log/mysqld.log(如果不删除这个文件会导致新安装的mysql无法存新密码，导致无法登录)
[hadoop01@biubiubiu01 ~]$ sudo rm -rf /var/log/mysqld.log

4、下载并安装MySQL yum源

[hadoop01@biubiubiu01 ~]$ wget http://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm
[hadoop01@biubiubiu01 ~]$ sudo rpm -ivh mysql80-community-release-el7-3.noarch.rpm

5、安装MySQL 8.0

[hadoop01@biubiubiu01 ~]$ sudo yum -y install mysql-community-server

6、初始化MySQL 8.0

#sudo mysqld --verbose --help | less查看详细帮助信息
[hadoop01@biubiubiu01 ~]$ sudo mysqld -I --user=mysql

7、修改/etc/my.cnf配置文件

[hadoop01@biubiubiu01 ~]$ sudo cp /etc/my.cnf /etc/my.cnf.bak
[hadoop01@biubiubiu01 ~]$ sudo vim /etc/my.cnf
#在[mysqld]配置段中新增如下代码：
port=3306
character-set-server=utf8mb4
collation-server=utf8mb4_unicode_ci
skip_name_resolve=1
innodb_file_per_table=1

8、启动MySQL 8.0

[hadoop01@biubiubiu01 ~]$ sudo systemctl start mysqld
#查看3306端口进程
[hadoop01@biubiubiu01 ~]$ sudo  netstat -anlp | grep 3306
#查看mysql服务状态
[hadoop01@biubiubiu01 ~]$ sudo systemctl status mysqld
#设置mysql开机自启
[hadoop01@biubiubiu01 ~]$ sudo systemctl enable mysqld

9、MySQL 8.0安全配置向导

[hadoop01@biubiubiu01 ~]$ sudo cat /var/log/mysqld.log | grep password
2020-02-03T08:53:17.986156Z 5 [Note] [MY-010454] [Server] A temporary password is generated for root@localhost: GkXrFH!aZ1vS
[hadoop01@biubiubiu01 ~]$ mysql_secure_installation

10、授权远程用户登录

[hadoop01@biubiubiu01 ~]$ mysql -u root -p
mysql> create user 'root'@'%' identified by '123456';
#修改密码为永不过期
mysql> alter user 'root'@'%' identified by '123456' password expire never;
#修改密码并指定MySQL用户登录密码加密规则为mysql_native_password
mysql> alter user 'root'@'%' identified with mysql_native_password by '123456';
mysql> grant all on *.* to 'root'@'%';
mysql> flush privileges;

11、连接客户端测试
在这里插入图片描述

3.4、Hive元数据配置到Mysql

操作步骤：

将mysql的驱动程序复制到${HIVE_HOME}/lib目录(hive2.x以上自带)

tar -zxvf mysql-connector-java-5.1.27.tar.gz
cp mysql-connector-java-5.1.27-bin.jar ${
   HIVE_HOME}/lib/

创建并且配置自定义配置文件hive-site.xml
官方配置：https://cwiki.apache.org/confluence/display/Hive/AdminManual+Metastore+Admi
nistration

#创建配置文件
touch hive-site.xml

#配置xml文件 参考hive-defualt.xml文件
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
	<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://biubiubiu01:3306/hive_metastore?createDatabaseIfNotExist=true</value>
</property>
<property>
	<name>javax.jdo.option.ConnectionDriverName</name>
	<value>com.mysql.jdbc.Driver</value>
</property>
<property>
	<name>javax.jdo.option.ConnectionUserName</name>
	<value>root</value>
</property>
<property>
	<name>javax.jdo.option.ConnectionPassword</name>
	<value>123456</value>
</property>
</configuration>

重新启动hive客户端
Mysql自动创建hive_metastore数据库
可以开启多个hive窗口测试
如果出现启动异常，检查配置或者重新启动虚拟机以及hadoop集群，重点是查看Hive日志

4、Hive配置

可以通过三种方式对 Hive 的相关属性进行配置，分别介绍如下：

4.1 配置文件

方式一为使用配置文件，使用配置文件指定的配置是永久有效的。Hive 有以下三个可选的配置文件：

hive-site.xml ：Hive 的主要配置文件；
hivemetastore-site.xml：关于元数据的配置；
hiveserver2-site.xml：关于 HiveServer2 的配置。

示例如下,在 hive-site.xml 配置 hive.exec.scratchdir：

 <property>
    <name>hive.exec.scratchdir</name>
    <value>/tmp/mydir</value>
    <description>Scratch space for Hive jobs</description>
  </property>

4.2 hiveconf

方式二为在启动命令行 (Hive CLI / Beeline) 的时候使用 --hiveconf 指定配置，这种方式指定的配置作用于整个 Session。

hive --hiveconf hive.exec.scratchdir=/tmp/mydir

4.3 set

方式三为在交互式环境下 (Hive CLI / Beeline)，使用 set 命令指定。这种设置的作用范围也是 Session 级别的，配置对于执行该命令后的所有命令生效。set 兼具设置参数和查看参数的功能。如下：

0: jdbc:hive2://hadoop001:10000> set hive.exec.scratchdir=/tmp/mydir;
No rows affected (0.025 seconds)
0: jdbc:hive2://hadoop001:10000> set hive.exec.scratchdir;
+----------------------------------+--+
|               set                |
+----------------------------------+--+
| hive.exec.scratchdir=/tmp/mydir  |
+----------------------------------+--+

4.4 配置优先级

配置的优先顺序如下 (由低到高)：
hive-site.xml - >hivemetastore-site.xml- > hiveserver2-site.xml - >-- hiveconf- > set

4.5 配置参数

Hive 可选的配置参数非常多，在用到时查阅官方文档即可AdminManual Configuration

三、Hive运行模式

1、Hive Cli 模式

# 以命令行的形式执行 SQL
[hadoop01@biubiubiu01 ~]$ hive
hive> show databases;

# 以shell命令的形式运行
# 查看hive帮助命令
[hadoop01@biubiubiu01 ~]$ hive -help

# 执行SQL语句
[hadoop01@biubiubiu01 ~]$ hive -e 'show databases'

# 以静默的形式执行SQL，能屏蔽掉日志信息
[hadoop01@biubiubiu01 ~]$ hive -S -e 'show databases'

# -v 查看SQL的详细执行情况
[hadoop01@biubiubiu01 ~]$ hive -v -e 'show databases'

# 以文件的形式执行SQL 生产环境下使用的方式
[hadoop01@biubiubiu01 ~]$ echo "show databases">1.sql
[hadoop01@biubiubiu01 ~]$ hive -f 1.sql

# 以文件的形式执行SQL 并且传入响应的参数
[hadoop01@biubiubiu01 ~]$ vim 2.sql

输入内容：select * from ${
   hivevar:tableName}
[hadoop01@biubiubiu01 ~]$ hive -f 2.sql -hivevar tableName=aa

1.1、Help

使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助，显示如下：

usage: hive
 -d,--define <key=value>          Variable subsitution to apply to hive 
                                  commands. e.g. -d A=B or --define A=B  --定义用户自定义变量
    --database <databasename>     Specify the database to use  -- 指定使用的数据库
 -e <quoted-query-string>         SQL from command line   -- 执行指定的 SQL
 -f <filename>                    SQL from files   --执行 SQL 脚本
 -H,--help                        Print help information  -- 打印帮助信息
    --hiveconf <property=value>   Use value for given property    --自定义配置
    --hivevar <key=value>         Variable subsitution to apply to hive  --自定义变量
                                  commands. e.g. --hivevar A=B
 -i <filename>                    Initialization SQL file  --在进入交互模式之前运行初始化脚本
 -S,--silent                      Silent mode in interactive shell    --静默模式
 -v,--verbose                     Verbose mode (echo executed SQL to the  console)  --详细模式

1.2 交互式命令行

直接使用 Hive 命令，不加任何参数，即可进入交互式命令行。

1.3 执行SQL命令

在不进入交互式命令行的情况下，可以使用 hive -e 执行 SQL 命令。

hive -e 'select * from emp';

1.4 执行SQL脚本

用于执行的 sql 脚本可以在本地文件系统，也可以在 HDFS 上。

# 本地文件系统
hive -f /usr/file/simple.sql;

# HDFS文件系统
hive -f hdfs://hadoop001:8020/tmp/simple.sql;

其中 simple.sql 内容如下：

select * from emp;

1.5 配置Hive变量

可以使用 --hiveconf 设置 Hive 运行时的变量。

hive -e 'select * from emp' \
--hiveconf hive.exec.scratchdir=/tmp/hive_scratch  \
--hiveconf mapred.reduce.tasks=4;

hive.exec.scratchdir：指定 HDFS 上目录位置，用于存储不同 map/reduce 阶段的执行计划和这些阶段的中间输出结果。

1.6 配置文件启动

使用 -i 可以在进入交互模式之前运行初始化脚本，相当于指定配置文件启动。

hive -i /usr/file/hive-init.conf;

其中 hive-init.conf 的内容如下：

set hive.exec.mode.local.auto = true;

hive.exec.mode.local.auto 默认值为 false，这里设置为 true ，代表开启本地模式。

1.7 用户自定义变量

--define <key=value> 和 --hivevar <key=value> 在功能上是等价的，都是用来实现自定义变量，这里给出一个示例:

定义变量：

hive  --define  n=ename --hiveconf  --hivevar j=job;

在查询中引用自定义变量：

# 以下两条语句等价
hive > select ${n} from emp;
hive >  select ${hivevar:n} from emp;

# 以下两条语句等价
hive > select ${j} from emp;
hive >  select ${hivevar:j} from emp;

2、Hive Service2模式

#启动Hive Service2服务
[hadoop01@biubiubiu01 ~]$ hiveserver2

#通过beeline进行连接
[hadoop01@biubiubiu01 ~]$ beeline -u jdbc:hive2://
0: jdbc:hive2://> show databases;

2.1 HiveServer2

Hive 内置了 HiveServer 和 HiveServer2 服务，两者都允许客户端使用多种编程语言进行连接，但是 HiveServer 不能处理多个客户端的并发请求，所以产生了 HiveServer2。

HiveServer2（HS2）允许远程客户端可以使用各种编程语言向 Hive 提交请求并检索结果，支持多客户端并发访问和身份验证。HS2 是由多个服务组成的单个进程，其包括基于 Thrift 的 Hive 服务（TCP 或 HTTP）和用于 Web UI 的 Jetty Web 服务器。

HiveServer2 拥有自己的 CLI(Beeline)，Beeline 是一个基于 SQLLine 的 JDBC 客户端。由于 HiveServer2 是 Hive 开发维护的重点 (Hive0.15 后就不再支持 hiveserver)，所以 Hive CLI 已经不推荐使用了，官方更加推荐使用 Beeline。

2.2 Beeline

Beeline 拥有更多可使用参数，可以使用 beeline --help 查看，完整参数如下：

Usage: java org.apache.hive.cli.beeline.BeeLine
   -u <database url>               the JDBC URL to connect to
   -r                              reconnect to last saved connect url (in conjunction with !save)
   -n <username>                   the username to connect as
   -p <password>                   the password to connect as
   -d <driver class>               the driver class to use
   -i <init file>                  script file for initialization
   -e <query>                      query that should be executed
   -f <exec file>                  script file that should be executed
   -w (or) --password-file <password file>  the password file to read password from
   --hiveconf property=value       Use value for given property
   --hivevar name=value            hive variable name and value
                                   This is Hive specific settings in which variables
                                   can be set at session level and referenced in Hive
                                   commands or queries.
   --property-file=<property-file> the file to read connection properties (url, driver, user, password) from
   --color=[true/false]            control whether color is used for display
   --showHeader=[true/false]       show column names in query results
   --headerInterval=ROWS;          the interval between which heades are displayed
   --fastConnect=[true/false]      skip building table/column list for tab-completion
   --autoCommit=[true/false]       enable/disable automatic transaction commit
   --verbose=[true/false]          show verbose error messages and debug info
   --showWarnings=[true/false]     display connection warnings
   --showNestedErrs=[true/false]   display nested errors
   --numberFormat=[pattern]        format numbers using DecimalFormat pattern
   --force=[true/false]            continue running script even after errors
   --maxWidth=MAXWIDTH             the maximum width of the terminal
   --maxColumnWidth=MAXCOLWIDTH    the maximum width to use when displaying columns
   --silent=[true/false]           be more silent
   --autosave=[true/false]         automatically save preferences
   --outputformat=[table/vertical/csv2/tsv2/dsv/csv/tsv]  format mode for result display
   --incrementalBufferRows=NUMROWS the number of rows to buffer when printing rows on stdout,
                                   defaults to 1000; only applicable if --incremental=true
                                   and --outputformat=table
   --truncateTable=[true/false]    truncate table column when it exceeds length
   --delimiterForDSV=DELIMITER     specify the delimiter for delimiter-separated values output format (default: |)
   --isolation=LEVEL               set the transaction isolation level
   --nullemptystring=[true/false]  set to true to get historic behavior of printing null as empty string
   --maxHistoryRows=MAXHISTORYROWS The maximum number of rows to store beeline history.
   --convertBinaryArrayToString=[true/false]    display binary column data as string or as byte array
   --help                          display this message

2.3 常用参数

在 Hive CLI 中支持的参数，Beeline 都支持，常用的参数如下。更多参数说明可以参见官方文档 Beeline Command Options

参数	说明
-u <database URL>	数据库地址
-n <username>	用户名
-p <password>	密码
-d <driver class>	驱动 (可选)
-e <query>	执行 SQL 命令
-f <file>	执行 SQL 脚本
-i (or)–init <file or files>	在进入交互模式之前运行初始化脚本
–property-file <file>	指定配置文件
–hiveconf property=value	指定配置属性
–hivevar name=value	用户自定义属性，在会话级别有效

示例：使用用户名和密码连接 Hive

$ beeline -u jdbc:hive2://localhost:10000  -n username -p password

3、Hive直接与Hadoop交互

#通过Hive命令行与Hadoop进行交互
hive (default)> dfs -ls /

#上传文件命令
hive (default)> dfs -put /home/hive/1.sql /

#删除文件命令
hive (default)> dfs -rmr /1.sql

四、Hive数据类型

1、基本数据类型

在这里插入图片描述
对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

2、集合数据类型

数据类型	描述	用法
array	存储具有相同数据类型的一组数据比如：[‘a’,‘b’,‘c’]	array
map	存储一组键值对数据比如：a->b c->f	map<String,Int>
struct	C语言中存在一种数据结构相类似于javabean	struct{name:String,age:Int}
uniontype	类似数组但是可以装不同的数据类型	uniontype<String,int,double>

3、类型转化

Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换，例如某表达式使用 INT 类型，TINYINT 会自动转换为 INT 类型，但是 Hive 不会进行反向转化，例如，某表达式使用 TINYINT 类型，INT 不会自动转换为 TINYINT 类型，它会返回错误，除非使用 CAST 操作。
1、隐式类型转换规则如下：

任何整数类型都可以隐式地转换为一个范围更广的类型，如 TINYINT 可以转换成 INT，INT 可以转换成 BIGINT。
所有整数类型、FLOAT 和 STRING 类型都可以隐式地转换成 DOUBLE。
TINYINT、SMALLINT、INT 都可以转换为 FLOAT。
BOOLEAN 类型不可以转换为任何其它的类型。

2、可以使用 CAST 操作显示进行数据类型转换，例如 CAST(‘1’ AS INT)将把字符串’1’ 转换成整数 1；如果强制类型转换失败，如执行 CAST(‘X’ AS INT)，表达式返回空值 NULL。

五、Hive数据管理模型

元数据存储的是Hive的数据管理模型，具体对象包括：

数据库 是表的命名空间主要负责组织管理表
表信息 类似于关系型数据库中的表，表信息包含：列、hdfs存储位置、分区信息等
分区信息 每个表可以有具有多个分区，分区个数由分区字段的数据决定
分桶信息 每个分区中的数据又可以划分为存储桶

注意：以上都是Hive数据的隔离机制，其中数据库、表、分区都是以文件目录（directory）隔离数据，分桶是以文件的形式隔离数据

1、数据库操作

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL
Hive中的每个数据库都会映射到HDFS物理地址,其主要操作命令 ：

创建create
删除drop
修改alter
使用user
展示show
查看 desc

1.1、查看使用数据库列表

show databases; #Hive默认会创建default库

# 使用或者切换数据库
语法： use 数据库名称
use second #切换到second数据库

# 查看当前使用的数据库
select current_database();

1.2、查看数据库详细信息

语法：desc database 名称
#查看更新为详细的信息，可以展示dbproperties属性信息
语法：desc database extended 名称

1.3、创建数据库

语法：
create database if not exists 名称
COMMENT ‘数据描述信息’
LOCATION ‘指定数据库数据存储路径，如果不指定则使用默认配置数据仓库地址’
with dbproperties (key=value...) # 属性信息

# 案例
案例1：create database if not exists first_database;
#database会映射到HDFS物理地址目录：
/user/hive/warehouse/first_database.db

案例2：create database if not exists second_database comment 'test
database' location 'hdfs://biubiubiu01:9000/second' with
dbproperties('creator'='biubiubiu','createdate'='2020.01.01')

1.4、修改数据库信息

语法：alter database database名称 set 属性 values
属性：dbproperties 、location
#修改属性
alter database second_database set dbproperties ('createtime'='2019');

#修改location属性 版本要求：Hive 2.2.1, 2.4.0 and later
alter database second_database set location
'hdfs://biubiubiu01:9000/second2';
注意：在执行更新操作的时候，需要注意Hive的安装版本，不同的版本可执行修改的属性不太一样

1.5、删除数据库

语法：drop database if exists 名称 [RESTRICT|CASCADE]
RESTRICT：删除空数据库，默认删除方式，不为空时报错
CASCADE：级联删除，删除数据库包括数据库中的所有内容

# 案例
#数据库为空时
drop database if exists second_database
#数据库不为空时，删除数据库同时删除数据库中的内容
drop database if exists second_database CASCADE

2、数据表模型以及DDL操作

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable
hive表同样也会映射到hdfs上的路径
Hive表结构模型
- 表名
- 列属性: 列名、数据类型、列描述
- 表描述信息 comment
- 表分区字段 partitioned by
- 表分桶 clustered by
- 指定行的存储读取和写入格式 ROW FORMAT row_format
- 指定文件存储结构 stored as fileType
- 指定表中数据的存储路径 location hdfs路径
- 表属性 TBLPROPERTIES （property_name=property_value）