【002hive基础】hive的库、表与hdfs的组织逻辑

roman_日积跬步-终至千里

已于 2023-05-21 22:08:51 修改

阅读量462

点赞数

分类专栏： # hive 文章标签： hive hdfs 大数据

于 2023-05-21 21:06:47 首次发布

本文链接：https://blog.csdn.net/hiliang521/article/details/130796618

版权

hive 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

一. 数据的组织形式
二. 底层储存

一. 数据的组织形式

1. hive数据库

hive将不同功能模块的数据，存储在不同的数据库中，在hdfs中以文件夹的形式显示。

2. hive表

2.1. 内部表和外部表

内部表:

hive对hdfs存储的数据具有最高权限。当删除表时，元数据（mysql）和（在hdfs）表数据一并删除。

创建内部表：

CREATE TABLE IF NOT EXISTS 
students(user_no INT,name STRING,sex STRING,  
         grade STRING COMMOT '班级'）COMMONT '学生表'  
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
STORE AS TEXTFILE;

外部表:

对数据的管理权限是hdfs，hive对数据只有使用权。当删除表时，元数据会被删除，表数据不会被删除，仍然会存储到hdfs上。

创建外部表：

CREATE EXTERNAL TABLE IF NOT EXISTS 
students(user_no INT,name STRING,sex STRING,  
         class STRING COMMOT '班级'）COMMONT '学生表'  
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY ','  
STORE AS SEQUENCEFILE 
LOCATION '/usr/test/data/students.txt';

2.2. 分区表与分桶表

分区表：

一个表可以拥有一个或者多个分区，其中每个分区都以文件夹的形式单独存储此分区数据。分区表的建立，减少了查询时扫描数据的范围，提升了查询性能。
具体地、通过分区字段（partitionField=partitionName）来进行分区查询。

CREATE TABLE IF NOT EXISTS 
students(user_no INT,name STRING,sex STRING,
         class STRING COMMOT '班级'）COMMONT '学生表'  
PARTITIONED BY (ds STRING,nation STRING,city STRING)  
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY ','  
STORE AS SEQUENCEFILE;

注意：分区中定义的变量名不能和表中的列相同。

比如说，分区表partitinTable有包含nation(国家)、ds(日期)和city(城市)3个分区，其中nation = china，ds = 20130506，city = Shanghai则对应HDFS上的目录为：

/datawarehouse/partitinTable/nation=china/city=Shanghai/ds=20130506/

分桶表：

分桶表是将数据按照指定字段进行hash计算后，将数据分到多个文件当中去。
在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。
分桶表是对分区更细粒度的划分，分桶的核心思想：跟 MR程序的默认分区组件HashParititioner的原理一致： 分桶字段的hash值%num桶=余数=分桶的编号。

分桶带来的效果：

通过分桶计算之后余数相同的数据都会放在同一个分桶文件中，一个分桶文件可能存在分桶字段的多个值，也可能没有数据。
注意：如果没有进行分区，分桶的目录就是表目录的下一级；如果有分区，分桶的目录就是分区目录的下一级。

分桶表的创建：

CREATE TABLE IF NOT EXISTS 
students(user_no INT,name STRING,sex STRING,  
         class STRING COMMOT '班级',score SMALLINT COMMOT '总分'）COMMONT '学生表'  
PARTITIONED BY (ds STRING,country STRING) CLUSTERED BY(user_no) 
SORTED BY(score) INTO 32 BUCKETS  
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY ','  
STORE AS SEQUENCEFILE;

3. 视图

hive视图中只存在逻辑视图，不存在物化视图。hive中只储存代表视图的查询语句。使用视图时，才会执行查询语句。

hive视图的作用仅仅提升sql语句的可读性。
基于以上 Hive view 的特性，我们在ETL和数据仓库中对于经常变化的表应慎重使用视图。

视图的创建

CREATE VIEW employee_skills
 AS
SELECT name, skills_score['DB'] AS DB,
skills_score['Perl'] AS Perl, 
skills_score['Python'] AS Python,
skills_score['Sales'] as Sales, 
skills_score['HR'] as HR 
FROM employee;

更改视图的属性：

ALTER VIEW employee_skills 
SET TBLPROPERTIES ('comment' = 'This is a view');

重新定义视图：

ALTER VIEW employee_skills AS 
SELECT * from employee ;

删除视图：

DROP VIEW employee_skills;

二. 底层储存

hive的存储分为表数据和元数据的存储：
1）表数据存储在hdfs中，存储的数据不带字段信息，存储的默认路径是：/user/hive/warehouse/库目录/表目录，通过修改配置文件hive-site.xml可以修改默认存储路径：

通过修改配置文件hive-site.xml来修改安装目录。       
<property>
   <name>hive.metastore.warehouse.dir</name>
   <value>/user/hive/data/warehouse</value>
   <description>hive default warehouse, if nessecory, change it</description>
</property>

2）元数据：存储在关系型数据库中，由配置文件决定元数据存储的位置

<property>         
   <name>javax.jdo.option.ConnectionURL</name>               
   <value>jdbc:mysql://localhost:3306/hive_bd1906?createDatabaseIfNotExist=true</value>
   <description>JDBC connect string for a JDBC metastore</description>              
   <!-- 配置的mysql的连接url 如果 mysql 和 hive 在同一个服务器节点，那么请更改 hadoop03 为 localhost -->
</property>