一篇文章带你全面了解什么是Hive

最新推荐文章于 2024-07-30 09:00:47 发布

Hey 锡瑞

最新推荐文章于 2024-07-30 09:00:47 发布

阅读量631

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/RuiKe1400360107/article/details/108168087

版权

Hadoop 专栏收录该内容

10 篇文章 3 订阅

订阅专栏

一、Hive介绍

1.1、简介

Hive是一个数据仓库软件。
Hive主要使用HQL（类sql）来分析已经存储在分布式设备(HDFS)上的数据！
Hive的本质是将用户编写的HQL，转换为MR程序，对数据进行分析！
Hive分析的数据必须是结构化的数据，在分析之前，用户需要对数据创建表结构！
Hive的表结构(shema)存储在关系型数据库中，数据是存储在HDFS上，二者通过表进行映射！
Hive基于OLAP设计，基于OLAP设计的软件，一般重分析，延时高！

1.2、安装

保证环境变量中有JAVA_HOME
基于HADOOP工作，保证环境变量中有HADOOP_HOME
在环境变量中配置HIVE_HOME，默认hive在启动时，会读取HIVE_HOME/conf中的配置文件

1.3、配置

自定义hive的一些属性，需要在conf/hive-site.xml文件，配置自定义的属性：参数读取的顺序： hadoop中的8个配置文件------>hive-default.xml------>hive-site.xml----->hive --hiveconf x=x；
修改hive输出日志的位置：修改conf/hive-log4j-properties文件。

1.4、元数据存储

hive默认将元数据存储在derby中；
derby数据库适合在一些Java开发的程序中作为内嵌的数据库！但是derby不支持多个实例同时访问一个库；
将hive的元数据存储位置修改为存放在mysql中；

注意：

①元数据存储的数据库的编码必须为latin1

②mysql的 binlog_format=mixde|row

1.5、hive的交互参数

-d: 定义一个变量名=变量值，在hivecli中可以使用 ${变量名}来读取变量值
-e: 执行一个引号引起来的sql语句，执行后返回结果，退出cli，用在脚本中！
-f: 执行一个sql文件，执行后返回结果，退出cli，用在脚本中！
-S：静默模式，不输出和结果无关的多余信息
--hiveconf 属性名=属性值，在hivecli启动之前定义一个属性名

1.6、在hive中如何查看变量

set: 查看当前cli所有的变量
set 变量名：查看某个指定变量的值
set 变量名=变量值：修改某个变量的值

1.7、连接hive的方式

使用hivecli
可以使用JDBC方式连接hive

（1）启动JDBC的服务端----hiveserver2
（2）使用JDBC方式的客户端来访问
                   beeline !connect 'jdbc:hive2://hiveserver2服务运行的主机名:10000'
                   使用其他JDBC客户端

1.8、hive中常用的命令

在hive中使用hdfs: dfs 命令
在hive中使用shell命令： ! shell命令

1.9、数据类型

在hive中最常用的数据类型就是String；
基本数据类型中，低精度的类型和高精度的类型进行计算时，hive会自动进行隐式转换，将低精度转为高精度；
boolean类型无法进行隐式转换；
使用cast(值 as 类型)进行强制转换；

       集合类型：
               Array: 数组，使用下标定位数组中的元素
               Map: key-value，使用key获取value的值
               Struct: 通过struct.属性名获取属性对应的值

1.10、数据的格式

hive只能分析结构化的数据！在使用hive之前，需要对数据进行ETL，转为结构化的数据；
在建表时，需要指定正确的分隔符，不然hive在读取每行数据时，无法将字段和数据进行映射。

1.11、hive的本质

在hive中创建的表，库都在hdfs上有相应的路径；
表中的数据，是文件的形式在表对应的目录中存放；
在建表和建库后，会在Mysql中生成对应的shema信息：

       tbls: 存放表的元数据
       dbs: 库的元数据
       column_v2: 列的元数据

二、库操作

2.1、增

create database if not exists 库名
comment 库的注释
location 库的路径
with dbproperties(属性名=属性值,...)

2.2、删

drop database 库名：删除空库
drop database 库名 cascade：删除非空库

2.3、改

alter database 库名 set dbproperties(属性名=属性值,...)

2.4、查

show databases: 查看所有库
show tables in 库名：查看库中的表
desc database 库名：查看某个库的描述
desc database extended 库名：查看某个库的详细描述

三、表操作

3.1、创建表（增）

       create [external] table if not exists 表名
       (列名列类型 comment 列注释,...)
       comment 表的注释
       .....
       row format ... //表中每行数据的格式
       store as xxxx //表中数据的存储格式
       location //表的路径

   创建表，带external，这个表是外部表，不带是管理表(内部表)

   外部表在删除表时，只删除mysql中的元数据！
   管理表在删除表时，删除mysql中的元数据和在hdfs表目录中的数据！

   表是廉价的，数据是珍贵的，一般都建议外部表！

   外部表： alter table 表名 set tblproperties('EXTERNAL'='TRUE')
   内部表： alter table 表名 set tblproperties('EXTERNAL'='FALSE')

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)]   //表中的字段信息
[COMMENT table_comment] //表的注释

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] // 创建分区表

[CLUSTERED BY (col_name, col_name, ...) //分桶表
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  //分桶后排序

[ROW FORMAT row_format]  // 表中数据每行的格式，定义数据字段的分隔符，集合元素的分隔符等

[STORED AS file_format] //表中的数据要以哪种文件格式来存储，默认为TEXTFILE（文本文件）
					可以设置为SequnceFile或 Paquret,ORC等
[LOCATION hdfs_path]  //表在hdfs上的位置

其他建表：
           只复制表结构： create table 表名 like 表名1
           执行查询语句，将查询语句查询的结果，按照顺序作为新表的普通列：create table 表名 as select 语句
                       不能创建分区表！

3.2、删

drop table 表名：删除表
truncate table 表名：清空管理表，只清空数据

3.3、改

       改表的属性： alter table 表名 set tblproperties(属性名=属性值)

       对列进行调整：
               改列名或列类型： alter table 表名 change [column] 旧列名新列名新列类型 [comment 新列的注释]
                               [FIRST|AFTER column_name] //调整列的顺序

               添加列和重置列：ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

3.4、查

desc 表名：查看表的描述
desc formatted 表名：查看表的详细描述

Hey 锡瑞

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
一篇文章带你全面了解什么是Hive

一、Hive查看表的分区信息（1）查询某个表的分区信息：SHOW PARTITIONS employee；（2）查看某个表是否存在某个特定分区键SHOW PARTITIONSemployee PARTITION(country='US')DESCRIBE EXTENDEDemployee PARTITION(country='US')（3）查询表信息：DESCRIBE EXTENDEDemployee;（4）查询结构化的表信息：DESCRIBE FORMATTED...
复制链接

扫一扫

专栏目录