操作内容简介
一、操作前的准备
本演示的所有操作所用的Hive版本是apache-hive-2.1.0,大家先事先安装好Hive,详情请移步:Hive学习之路(一):Hive的基本概念与安装配置,版本因素对于以下的操作来说不大。本次所演示的操作在hive shell环境下完成,在Hive中所使用的SQL语句与MySQL等关系型数据库的基本一致,顾不作演示。
二、Hive表操作详讲
1. 创建数据库
命令格式:create database 数据库名 在Hive中创建一个数据库,本质是在HDFS的Hive目录下创建一个文件夹,名字为数据库名,因而可以得知,在Hive中,一个数据库就是一个目录。使用命令:create database mydb2
,创建一个名为mydb2的数据库,我们可以在HDFS的50070Web端口查看:
2. 查看所有数据库/表
命令格式:show databases/tables 查看所有数据库/当前数据库下所有的表:
使用命令:show databases
,查看HiVe中所有的数据库:
命令格式:use 数据库名 进入指定数据库名的数据库下,执行命令:use mydb2
,进入mydb2数据库,执行命令:show tables
列出mydb2下的所有表,因为我们没有创建任何表,所以为空:
3. 在Hive上直接操作HDFS
命令格式:dfs -xx hdfs路径 可以直接操作HDFS,且效率比在终端操作HDFS要高很多,比如我想看Hive在HDFS目录下的数据库目录,执行命令:dfs -ls /user/hive/warehouse
:
我们发现了我们建立的数据库mydb2.
4. 在Hive上直接执行终端命令
在hive shell中除了可以直接操作HDFS,还可以执行普通的终端命令。
命令格式:! shell命令 可以直接执行普通的终端命令。比如,我想查看当前路径,执行命令:! pwd
:
5. 创建数据表/查看表的信息
在Hive中,表的创建方法有多种,一张表在HDFS中在大多数情况下是一个文件,命令格式:
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], …)]
[COMMENT table_comment]
[PARTITIONED BY(col_name data_type [COMMENT col_comment], …)]
[CLUSTERED BY (col_name, col_name, …)
[SORTED BY(col_name [ASC|DESC], …)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
上面高度概括了Hive创建表的大多数方法,下面分点演示:
1.托管表
命令格式:create table 表名(字段名1 类型,字段名2 类型,…) row format delimited fields terminated by '\t’ 创建一张以制表符分隔数据的表:
执行命令:create table student(id int,name string,age int) row format delimited fields terminated by ' '
创建一个有三个字段且以空格分隔字段的学生表:
再执行命令:show tables
查看mydb2的数据表:
发现学生表已经建立完成。
命令格式:desc [f