1、数据仓库 和 Hive
数据仓库是为了协助分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而节省时间和成本,提高质量。它与数据库系统的区别是,数据库系统可以很好地解决事务处理,实现对数据的“增、删、改、查”操作,而数据仓库则是用来做查询分析的数据库,通常不会用来做单条数据的插入、修改和删除。
Hive主要应用于传统的数据仓库任务ETL(Extract‐Transformation‐Loading)和报表生成。Hive作为一个数据仓库工具,非常适合数据的统计分析,它可以将数据文件组成表格并具有完整的类SQL查询功能,还可将类SQL语句自动转换成MapReduce任务来运行。因此,如果使用Hive,可以大幅提高开发效率。
- Hive可以处理超大规模的数据,可扩展性和容错性非常强
- Hive有类SQL的查询语言,学习成本相对比较低。
2、Hive和关系数据库的区别
Hive和数据库的主要区别在查询语言、存储位置、数据格式、数据更新、索引、执行、执行延迟、可扩展性和数据规模几方面。
3、Hive的运行架构
1>、Hadoop部分
其中HDFS、MapReduce是Hadoop的相关内容,主要实现数据的存储和计算。
2>、Driver
解释器、编辑器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
3>、元数据存储Metastore
Metastore主要用来存储元数据,Hive是将元数据存储在数据库中,如MySQL、derby。在Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在目录等。Metastore包括两部分:服务和后台数据的存储。Hive有3种Metastore的配置方式,分别是内嵌模式、本地模式和远程模式。
- 内嵌模式使用的是内嵌的Derby数据库来存储数据,配置简单,但是一次只能与一个客户端连接,适用于做单元测试,不适用于生产环境。
- 本地模式和远程模式都采用外部数据库来存储数据,目前支持的数据库有MySQL、Oracle、SQL Server等。本地元存储和远程元存储的区别是本地元数据不需要单独启动Metastore服务,因为本地元存储用的是和本地Hive在同一个进程里的Metastore服务。
4>、用户接口
Hive的用户接口主要有3个,分别是CLI(Command Line)、Client和WUI。其中CLI是最常用的。
在CLI启动时,一个Hive的副本也会随之启动。Client,顾名思义是Hive的客户端,用户会连接至Hive Server,在启动Client模式时,需要指出Hive Server在哪个节点上,同时在该节点启动Hive Server。WUI则是通过浏览器来访问Hive。
HiveServer是Hive的一种实现方式,客户端可以对Hive中的数据进行相应操作,而不启动CLI,HiveServer和CLI两者都允许远程客户端使用Java、Python等多种编程语言向Hive提交请求,并取回结果。
5、Mysql数据库安装
Hive的元数据存储有三种模式,我们这里选择使用本地模式,并使用Mysql存储元数据。所以,在部署Hive之前,我们先安装Mysql。Mysql数据库在Centos环境的安装,请参考《Centos7下使用yum安装Mysql5.7》。
6、Hive安装
1>、 下载Hive
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
2>、解压
tar -zxvf apache-hive-3.1.2-bin.tar.gz -C ../servers/
3>、配置hive-site.xml文件
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<!--<value>jdbc:derby:;databaseName=metastore_db;create=true</value>-->
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<!--<value>org.apache.derby.jdbc.EmbeddedDriver</value>-->
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<!--<value>APP</value>-->
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
<!--<value>mine</value>-->
</property>
<property>
<name>system:java.io.tmpdir</name>
<value>/tmp/hive/java</value>
</property>
<property>
<name>system:user.name</name>
<value>${user.name}</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<property>
<name>datanucleus.schema.autoCreateAll</name>
<value>true</value>
</property>
4、配置环境变量
通过如下命令,
vim /etc/profile
添加该配置:
export HIVE_HOME=/export/servers/apache-hive-3.1.2-bin
export PATH=:$HIVE_HOME/bin:$PATH
执行下面命令,让配置的环境变量生效:
source/etc/profile
5、hive shell命令访问Hive
./bin/hive
进入下面页面,说明Hive配置成功了。
7、简单使用
1>、显示数据库
hive> show databases;
OK
default
Time taken: 37.711 seconds, Fetched: 1 row(s)
2>、创建数据库
语法:CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>
hive> create database if not exists test;
OK
Time taken: 2.54 seconds
3>、查看数据库详情
hive> desc database test;
OK
test hdfs://node01:8020/user/hive/warehouse/test.db root USER
Time taken: 0.195 seconds, Fetched: 1 row(s)
4>、创建表
语法:
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
其中,
- CREATE TABLE 创建一个指定名字的表。
- IF NOT EXISTS 创建表时,如果存在会抛异常,这个选项用来忽略这个异常。
- EXTERNAL关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)。Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
- COMMENT:为表和列添加注释。
- PARTITIONED BY创建分区表
- CLUSTERED BY创建分桶表
- SORTED BY不常用
- ROW FORMAT 可选值:DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char][MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, …)]。用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive通过 SerDe 确定表的具体的列的数据。
- STORED AS 可选值EQUENCEFILE | TEXTFILE | RCFILE,指定存储文件类型。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCEFILE
- LOCATION :指定表在HDFS上的存储位置。
例子:
hive> create table person(id INT,
> name STRING,
> age INT,
> fav ARRAY<STRING>,
> addr MAP<STRING,STRING>
> )
> COMMENT 'This is the person table'
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
> COLLECTION ITEMS TERMINATED BY '-'
> MAP KEYS TERMINATED BY ':'
> LINES TERMINATED BY '\n'
> STORED AS TEXTFILE;
OK
Time taken: 8.436 seconds
5>、查看表结构
hive> desc formatted person;
OK
# col_name data_type comment
id int
name string
age int
fav array<string>
addr map<string,string>
# Detailed Table Information
Database: default
Owner: root
CreateTime: Fri Aug 07 01:01:32 CST 2020
LastAccessTime: UNKNOWN
Retention: 0
Location: hdfs://node01:8020/user/hive/warehouse/person
Table Type: MANAGED_TABLE
Table Parameters:
COLUMN_STATS_ACCURATE {\"BASIC_STATS\":\"true\"}
comment This is the person table
numFiles 0
numRows 0
rawDataSize 0
totalSize 0
transient_lastDdlTime 1596733292
# Storage Information
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params:
colelction.delim -
field.delim \u0001
mapkey.delim :
serialization.format \u0001
Time taken: 0.222 seconds, Fetched: 38 row(s)
6>、导入数据
在目录export下准备test.txt文件,内容如下:
rod 18 study-game-driver std_addr:beijing-work_addr:shanghai
tom 21 study-game-driver std_addr:beijing-work_addr:beijing
jerry 33 study-game-driver std_addr:beijing-work_addr:shenzhen
然后执行导入命令:
load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;
7>、查看数据
注:出现下面全部数据为空的情况,一般都是创建表时,分隔符和实际txt文件中的不匹配造成的。
hive> select * from person;
OK
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
Time taken: 1.0 seconds, Fetched: 3 row(s)
8>、清空表数据
语法:truncate table 表名;
hive> truncate table person;
Moved: 'hdfs://node01:8020/user/hive/warehouse/person' to trash at: hdfs://node01:8020/user/root/.Trash/Current
OK
Time taken: 0.652 seconds
hive> load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;
Loading data to table default.person
OK
Time taken: 2.51 seconds
hive> select * from person;
OK
1 rod 18 ["study","game","driver"] {"std_addr":"beijing","work_addr":"shanghai"}
2 tom 21 ["study","game","driver"] {"std_addr":"beijing","work_addr":"beijing"}
3 jerry 33 ["study","game","driver"] {"std_addr":"beijing","work_addr":"shenzhen"}
Time taken: 0.614 seconds, Fetched: 3 row(s)