07 - hive的 DDL（Data Definition Language）数据定义、DML（Data Manipulation Language）数据操作以及查询相关语法

最新推荐文章于 2024-07-08 19:10:26 发布

爱上口袋的天空

最新推荐文章于 2024-07-08 19:10:26 发布

阅读量1k

点赞数 21

分类专栏： # hive 文章标签：数据库

本文链接：https://blog.csdn.net/k_520_w/article/details/138459656

版权

hive 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1、DDL（Data Definition Language）数据定义

2、DML（Data Manipulation Language）数据操作

3.2、基本查询（Select…From）

1、DDL（Data Definition Language）数据定义

1.1、数据库

1.1.1、创建数据库

1）语法

CREATE DATABASE [IF NOT EXISTS] database_name

[COMMENT database_comment]

[LOCATION hdfs_path]

[WITH DBPROPERTIES (property_name=property_value, ...)];

2）案例

（1）创建一个数据库，不指定路径

hive (default)> create database db_hive1;

注：若不指定路径，其默认路径为${hive.metastore.warehouse.dir}/database_name.db

（2）创建一个数据库，指定路径

hive (default)> create database db_hive2 location '/db_hive2';

（3）创建一个数据库，带有dbproperties

hive (default)> create database db_hive3 with dbproperties('create_date'='2022-11-18');

1.1.2、查询数据库

1）展示所有数据库

（1）语法

SHOW DATABASES [LIKE 'identifier_with_wildcards'];

注：like通配表达式说明：*表示任意个任意字符，|表示或的关系。

（2）案例

hive> show databases like 'db_hive*';

OK

db_hive_1

db_hive_2

2）查看数据库信息

（1）语法

DESCRIBE DATABASE [EXTENDED] db_name;

（2）案例

（2.1）查看基本信息

hive> desc database db_hive3;

OK

db_hive hdfs://hadoop102:8020/user/hive/warehouse/db_hive.db kgf USER

（2.2）查看更多信息

hive> desc database extended db_hive3;

OK

db_name comment location owner_name owner_type parameters

db_hive3 hdfs://hadoop102:8020/user/hive/warehouse/db_hive3.db kgf USER {create_date=2022-11-18}

1.1.3、修改数据库

用户可以使用alter database命令修改数据库某些信息，其中能够修改的信息包括dbproperties、location、owner user。需要注意的是：修改数据库location，不会改变当前已有表的路径信息，而只是改变后续创建的新表的默认的父目录。

1）语法

--修改dbproperties

ALTER DATABASE database_name SET DBPROPERTIES (property_name=property_value, ...);

--修改location

ALTER DATABASE database_name SET LOCATION hdfs_path;

--修改owner user

ALTER DATABASE database_name SET OWNER USER user_name;

2）案例

（1）修改dbproperties

hive> ALTER DATABASE db_hive3 SET DBPROPERTIES ('create_date'='2022-11-20');

1.1.4、删除数据库

1）语法

DROP DATABASE [IF EXISTS] database_name [RESTRICT|CASCADE];

注：RESTRICT：严格模式，若数据库不为空，则会删除失败，默认为该模式。

CASCADE：级联模式，若数据库不为空，则会将库中的表一并删除。

2）案例

（1）删除空数据库

hive> drop database db_hive2;

（2）删除非空数据库

hive> drop database db_hive3 cascade;

1.1.5、切换当前数据库

1）语法

USE database_name;

1.2、表（table）

1.2.1、创建表

1.2.1.1、语法

1）普通建表

（1）完整语法

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

（2）关键字说明：

（2.1）TEMPORARY

临时表，该表只在当前会话可见，会话结束，表会被删除。

（2.1）EXTERNAL（重点）

外部表，与之相对应的是内部表（管理表）。管理表意味着Hive会完全接管该表，包括元数据和HDFS中的数据。而外部表则意味着Hive只接管元数据，而不完全接管HDFS中的数据。

（2.2）data_type（重点）

Hive中的字段类型可分为基本数据类型和复杂数据类型。

基本数据类型如下：

注：类型转换

Hive的基本数据类型可以做类型转换，转换的方式包括隐式转换以及显示转换。

方式一：隐式转换

具体规则如下：

a. 任何整数类型都可以隐式地转换为一个范围更广的类型，如tinyint可以转换成int，int可以转换成bigint。

b. 所有整数类型、float和string类型都可以隐式地转换成double。

c. tinyint、smallint、int都可以转换为float。

d. boolean类型不可以转换为任何其它的类型。

详情可参考Hive官方说明：Allowed Implicit Conversions

方式二：显示转换

可以借助cast函数完成显示的类型转换

a.语法

cast(expr as <type>)

b.案例

hive (default)> select '1' + 2, cast('1' as int) + 2;

_c0 _c1

3.0 3

（2.3）PARTITIONED BY（重点）

创建分区表

（2.4）CLUSTERED BY ... SORTED BY...INTO ... BUCKETS（重点）

创建分桶表

（2.5）ROW FORMAT（重点）

指定SERDE，SERDE是Serializer and Deserializer的简写。Hive使用SERDE序列化和反序列化每行数据。详情可参考 Hive-Serde。语法说明如下：

语法一：DELIMITED关键字表示对文件中的每个字段按照特定分割符进行分割，其会使用默认的SERDE对每行数据进行序列化和反序列化。

ROW FORAMT DELIMITED

[FIELDS TERMINATED BY char]

[COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char]

[LINES TERMINATED BY char]

[NULL DEFINED AS char]

注：

fields terminated by ：列分隔符
collection items terminated by ： map、struct和array中每个元素之间的分隔符
map keys terminated by ：map中的key与value的分隔符
lines terminated by ：行分隔符

语法二：SERDE关键字可用于指定其他内置的SERDE或者用户自定义的SERDE。例如JSON SERDE，可用于处理JSON字符串。

ROW FORMAT SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value,property_name=property_value, ...)]

（2.6）STORED AS（重点）

指定文件格式，常用的文件格式有，textfile（默认值），sequence file，orc file、parquet file等等。

（2.7）LOCATION

指定表所对应的HDFS路径，若不指定路径，其默认值为

${hive.metastore.warehouse.dir}/db_name.db/table_name

（2.8）TBLPROPERTIES

用于配置表的一些KV键值对参数

2）Create Table As Select（CTAS）建表

该语法允许用户利用select查询语句返回的结果，直接建表，表的结构和查询语句的结构保持一致，且保证包含select查询语句返回的内容

CREATE [TEMPORARY] TABLE [IF NOT EXISTS] table_name

[COMMENT table_comment]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

[AS select_statement]

3）Create Table Like语法

该语法允许用户复刻一张已经存在的表结构，与上述的CTAS语法不同，该语法创建出来的表中不包含数据。

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[LIKE exist_table_name]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

1.2.1.2、案例

1）内部表与外部表

（1）内部表

Hive中默认创建的表都是的内部表，有时也被称为管理表。对于内部表，Hive会完全管理表的元数据和数据文件。

创建内部表如下：

create table if not exists student(

id int,

name string

)

row format delimited fields terminated by '\t'

location '/user/hive/warehouse/student';

准备其需要的文件如下，注意字段之间的分隔符。

[kgf@hadoop102 datas]$ vim /opt/module/datas/student.txt

1001   student1

1002   student2

1003   student3

1004   student4

1005   student5

1006   student6

1007   student7

1008   student8

1009   student9

1010   student10

1011   student11

1012   student12

1013   student13

1014   student14

1015   student15

1016   student16

上传文件到Hive表指定的路径

[kgf@hadoop102 datas]$ hadoop fs -put student.txt /user/hive/warehouse/student

删除表，观察数据HDFS中的数据文件是否还在

hive (default)> drop table student;

如下发现没了student

（2）外部表

外部表通常可用于处理其他工具上传的数据文件，对于外部表，Hive只负责管理元数据，不负责管理HDFS中的数据文件。

创建外部表如下：

create external table if not exists student(

id int,

name string

)

row format delimited fields terminated by '\t'

location '/user/hive/warehouse/student';

上传文件到Hive表指定的路径

[kgf@hadoop102 datas]$ hadoop fs -put student.txt /user/hive/warehouse/student

删除表，观察数据HDFS中的数据文件是否还在

hive (default)> drop table student;

发现还是存在：

2）SERDE和复杂数据类型

本案例重点练习SERDE和复杂数据类型的使用。

若现有如下格式的JSON文件需要由Hive进行分析处理，请考虑如何设计表？

注：以下内容为格式化之后的结果，文件中每行数据为一个完整的JSON字符串。

{

    "name": "dasongsong",

    "friends": [

        "bingbing",

        "lili"

    ],

    "students": {

        "xiaohaihai": 18,

        "xiaoyangyang": 16

    },

    "address": {

        "street": "hui long guan",

        "city": "beijing",

        "postal_code": 10010

    }

}

我们可以考虑使用专门负责JSON文件的JSON Serde，设计表字段时，表的字段与JSON字符串中的一级字段保持一致，对于具有嵌套结构的JSON字符串，考虑使用合适复杂数据类型保存其内容。最终设计出的表结构如下：

hive>

create table teacher(
name string,
friends array<string>,
students map<string,int>,
address struct<city:string,street:string,postal_code:int>
)
row format serde 'org.apache.hadoop.hive.serde2.JsonSerDe'
location '/user/hive/warehouse/teacher'

创建该表，并准备以下文件。注意，需要确保文件中每行数据都是一个完整的JSON字符串，JSON SERDE才能正确的处理。

[kgf@hadoop102 datas]$ vim /opt/module/datas/teacher.txt

{"name":"dasongsong","friends":["bingbing","lili"],"students":{"xiaohaihai":18,"xiaoyangyang":16},"address":{"street":"hui long guan","city":"beijing","postal_code":10010}}

上传文件到Hive表指定的路径

[kgf@hadoop102 datas]$ hadoop fs -put teacher.txt /user/hive/warehouse/teacher

尝试从复杂数据类型的字段中取值,内部表接管元数据以及hdfs上面的数据，上传文件后，自动解析到hive表中

3）create table as select和create table like

（1）create table as select

hive>

create table teacher1 as select * from teacher;

（2）create table like

hive>

create table teacher2 like teacher;

1.2.2、查看表

1）展示所有表

（1）语法

SHOW TABLES [IN database_name] LIKE ['identifier_with_wildcards'];

注：like通配表达式说明：*表示任意个任意字符，|表示或的关系。

（2）案例

hive> show tables like 'stu*';

2）查看表信息

（1）语法

DESCRIBE [EXTENDED | FORMATTED] [db_name.]table_name

注：EXTENDED：展示详细信息

FORMATTED：对详细信息进行格式化的展示

（2）案例

查看基本信息

hive> desc stu;

查看更多信息

hive> desc formatted stu;

1.2.3、修改表

1）重命名表

（1）语法

ALTER TABLE table_name RENAME TO new_table_name

（2）案例

hive (default)> alter table stu rename to stu1;

2）修改列信息

（1）语法

增加列

该语句允许用户增加新的列，新增列的位置位于末尾。

ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)

更新列

该语句允许用户修改指定列的列名、数据类型、注释信息以及在表中的位置。

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]

替换列

该语句允许用户用新的列集替换表中原有的全部列。

ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

2）案例

（1）查询表结构

hive (default)> desc stu;

（2）添加列

hive (default)> alter table stu add columns(age int);

（3）查询表结构

hive (default)> desc stu;

（4）更新列

hive (default)> alter table stu change column age ages double;

（5）替换列

hive (default)> alter table stu replace columns(id int, name string);

1.2.4、删除表

1）语法

DROP TABLE [IF EXISTS] table_name;

2）案例

hive (default)> drop table stu;

1.2.5、清空表

1）语法

TRUNCATE [TABLE] table_name

注意：truncate只能清空管理表，不能删除外部表中数据。

2）案例

hive (default)> truncate table student;

2、DML（Data Manipulation Language）数据操作

2.1、Load

Load语句可将文件导入到Hive表中

1）语法

hive>

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)];

关键字说明：

（1）local：表示从本地加载数据到Hive表；否则从HDFS加载数据到Hive表。

（2）overwrite：表示覆盖表中已有数据，否则表示追加。

（3）partition：表示上传到指定分区，若目标是分区表，需指定分区。

2）实操案例

（0）创建一张表

hive (default)>

create table student(

id int,

name string

)

row format delimited fields terminated by '\t';

（1）加载本地文件到hive，该/opt/module/datas/student.txt文件是在我们的hadoop102服务器上，因为上面启动了metestore服务，我们在hadoop103上面链接hadoop102的metestore服务

hive (default)> load data local inpath '/opt/module/datas/student.txt' into table student;

（2）加载HDFS文件到hive中

上传文件到HDFS,提前在hadoop上面创建/user/kgf目录

[kgf@hadoop102 ~]$ hadoop fs -put /opt/module/datas/student.txt /user/kgf/student.txt

加载HDFS上数据，导入完成后去HDFS上查看文件是否还存在

hive (default)>

load data inpath '/user/kgf/student.txt'

into table student;

（3）加载数据覆盖表中已有的数据

上传文件到HDFS

hive (default)> dfs -put /opt/module/datas/student.txt /user/kgf/student.txt

加载数据覆盖表中已有的数据

hive (default)>

load data inpath '/user/kgf/student.txt'

overwrite into table student;

2.2、Insert

2.2.1、将查询结果插入表中

1）语法

INSERT (INTO | OVERWRITE) TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement;

关键字说明：

（1）INTO：将结果追加到目标表

（2）OVERWRITE：用结果覆盖原有数据

2）案例

（1）新建一张表

hive (default)>

create table student1(

id int,

name string

)

row format delimited fields terminated by '\t';

（2）根据查询结果插入数据

hive (default)> insert overwrite table student3

select

id,

name

from student;

2.2.2、将给定Values插入表中

1）语法

INSERT (INTO | OVERWRITE) TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] VALUES values_row [, values_row ...]

2）案例

hive (default)> insert into table student1 values(1,'wangwu'),(2,'zhaoliu');

2.2.3、将查询结果写入目标路径

1）语法

INSERT OVERWRITE [LOCAL] DIRECTORY directory

[ROW FORMAT row_format] [STORED AS file_format] select_statement;

2）案例

insert overwrite local directory '/opt/module/datas/student' ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe'

select id,name from student;

2.3、Export&Import

Export导出语句可将表的数据和元数据信息一并到处的HDFS路径，Import可将Export导出的内容导入Hive，表的数据和元数据信息都会恢复。Export和Import可用于两个Hive实例之间的数据迁移。

1）语法

--导出

EXPORT TABLE tablename TO 'export_target_path'

--导入

IMPORT [EXTERNAL] TABLE new_or_original_tablename FROM 'source_path' [LOCATION 'import_target_path']

2）案例

--导出,注意最后的路径是hdfs上面的

hive>

export table default.student to '/user/hive/warehouse/export/student';

--导入

hive>

import table student2 from '/user/hive/warehouse/export/student';

3、查询

3.1、基础语法

1）查询语句语法：

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

  FROM table_reference       -- 从什么表查

  [WHERE where_condition]   -- 过滤

  [GROUP BY col_list]        -- 分组查询

   [HAVING col_list]          -- 分组后过滤

  [ORDER BY col_list]        -- 排序

  [CLUSTER BY col_list

    | [DISTRIBUTE BY col_list] [SORT BY col_list]

  ]

[LIMIT number]                -- 限制输出的行数

3.2、基本查询（Select…From）

3.2.1、数据准备

（0）原始数据

在/opt/module/hive/datas/路径上创建dept.txt文件，并赋值如下内容：

部门编号部门名称部门位置id

[kgf@hadoop102 datas]$ vim dept.txt

10 行政部 1700

20 财务部 1800

30 教学部 1900

40 销售部 1700

在/opt/module/hive/datas/路径上创建emp.txt文件，并赋值如下内容：

员工编号姓名岗位薪资部门

[kgf@hadoop102 datas]$ vim emp.txt

7369   张三   研发   800.00 30

7499   李四   财务   1600.00   20

7521   王五   行政   1250.00   10

7566   赵六   销售   2975.00   40

7654   侯七   研发   1250.00   30

7698   马八   研发   2850.00   30

7782   金九   \N 2450.0 30

7788   银十   行政   3000.00   10

7839   小芳   销售   5000.00   40

7844   小明   销售   1500.00   40

7876   小李   行政   1100.00   10

7900   小元   讲师   950.00 30

7902   小海   行政   3000.00   10

7934   小红明讲师   1300.00   30

（1）创建部门表

hive (default)>

create table if not exists dept(

    deptno int,    -- 部门编号

    dname string, -- 部门名称

    loc int        -- 部门位置

)

row format delimited fields terminated by '\t';

（2）创建员工表

hive (default)>

create table if not exists emp(

    empno int,      -- 员工编号

    ename string,   -- 员工姓名

    job string,     -- 员工岗位（大数据工程师、前端工程师、java工程师）

    sal double,     -- 员工薪资

    deptno int      -- 部门编号

)

row format delimited fields terminated by '\t';

（3）导入数据

hive (default)>

load data local inpath '/opt/module/hive/datas/dept.txt' into table dept;

load data local inpath '/opt/module/hive/datas/emp.txt' into table emp;

3.2.2、全表和特定列查询

1）全表查询

hive (default)> select * from emp;

2）选择特定列查询

hive (default)> select empno, ename from emp;

注意：

（1）SQL 语言大小写不敏感。

（2）SQL 可以写在一行或者多行。

（3）关键字不能被缩写也不能分行。

（4）各子句一般要分行写。

（5）使用缩进提高语句的可读性。

3.2.3、列别名

1）重命名一个列

2）便于计算

3）紧跟列名，也可以在列名和别名之间加入关键字‘AS’

4）案例实操

查询名称和部门。

hive (default)>

select

ename AS name,

deptno dn

from emp;

3.2.4、Limit语句

典型的查询会返回多行数据。limit子句用于限制返回的行数。

hive (default)> select * from emp limit 5;

hive (default)> select * from emp limit 2,3; -- 表示从第2行开始，向下抓取3行

3.2.5、Where语句

1）使用where子句，将不满足条件的行过滤掉

2）where子句紧随from子句

3）案例实操

hive (default)> select * from emp where sal > 1000;

3.2.6、关系运算函数

1）基本语法

如下操作符主要用于where和having语句中。

操作符	支持的数据类型	描述
A=B	基本数据类型	如果A等于B则返回true，反之返回false
A<=>B	基本数据类型	如果A和B都为null或者都不为null，则返回true，如果只有一边为null，返回false
A<>B, A!=B	基本数据类型	A或者B为null则返回null；如果A不等于B，则返回true，反之返回false
A<B	基本数据类型	A或者B为null，则返回null；如果A小于B，则返回true，反之返回false
A<=B	基本数据类型	A或者B为null，则返回null；如果A小于等于B，则返回true，反之返回false
A>B	基本数据类型	A或者B为null，则返回null；如果A大于B，则返回true，反之返回false
A>=B	基本数据类型	A或者B为null，则返回null；如果A大于等于B，则返回true，反之返回false
A [not] between B and C	基本数据类型	如果A，B或者C任一为null，则结果为null。如果A的值大于等于B而且小于或等于C，则结果为true，反之为false。如果使用not关键字则可达到相反的效果。
A is null	所有数据类型	如果A等于null，则返回true，反之返回false
A is not null	所有数据类型	如果A不等于null，则返回true，反之返回false
in（数值1，数值2）	所有数据类型	使用 in运算显示列表中的值
A [not] like B	string 类型	B是一个SQL下的简单正则表达式，也叫通配符模式，如果A与其匹配的话，则返回true；反之返回false。B的表达式说明如下：‘x%’表示A必须以字母‘x’开头，‘%x’表示A必须以字母‘x’结尾，而‘%x%’表示A包含有字母‘x’,可以位于开头，结尾或者字符串中间。如果使用not关键字则可达到相反的效果。
A rlike B, A regexp B	string 类型	B是基于java的正则表达式，如果A与其匹配，则返回true；反之返回false。匹配使用的是JDK中的正则表达式接口实现的，因为正则也依据其中的规则。例如，正则表达式必须和整个字符串A相匹配，而不是只需与其字符串匹配。