Hive数据模型图
Hive中DDL的使用
Hive SQL(HQL)与标准SQL的语法大同小异,基本相同。 HQL中create语法(尤其create table)是重点。建表是否成功直接关乎到数据文件是否映射成功,进而影响后续是否可以基于SQL进行数据分析。
Hive数据库介绍
在Hive中,默认的数据库叫做default,存储数据位置位于HDF的/user/hive/warehouse下。 用户自己创建的数据库存储位置是/user/hive/warehouse/database_name.db下。
Hive数据库的操作
CREATE ( DATABASE | SCHEMA ) [ IF NOT EXISTS ] database_name
[ COMMENT database_comment]
[ LOCATION hdfs_path]
[ WITH DBPROPERTIES ( property_name= property_value, . . . ) ] ;
CREATE DATABASE IF NOT EXISTS test
COMMENT "this is my first db"
WITH dbproperties ( 'createdBy' = 'Cauchy' ) ;
USE DATABASE
USE test
删除数据库
默认行为是RESTRICT,这意味着仅在数据库为空时才删除它。 要删除带有表的数据库(不为空的数据库),我们可以使用CASCADE。
DROP ( DATABASE | SCHEMA ) [ IF EXISTS ] database_name [ RESTRICT | CASCADE ] ;
DROP DATABASE test;
Hive创建表操作
CREATE TABLE [ IF NOT EXISTS ] [ db_name. ] table_name
( col_name data_type [ COMMENT col_comment] , . . . )
[ COMMENT table_comment]
[ ROW FORMAT DELIMITED …] ;
数据类型
Hive数据类型指的是表中列的字段类型; 原生数据类型(primitive data type)和复杂数据类型(complex data type)。 最常用的数据类型是字符串String和数字类型Int。
分隔符指定
ROW FORMAT DELIMITED语法用于指定字段之间等相关的分隔符,这样Hive才能正确的读取解析数据。 只有分隔符指定正确,解析数据成功,我们才能在表中看到数据。 LazySimpleSerDe是Hive默认的,包含4种子语法,分别用于指定字段之间、集合元素之间、map映射 kv之间、换行的分隔符号。
默认分隔符
Hive建表时如果没有row format语法指定分隔符,则采用默认分隔符; 默认的分割符是’\001’,是一种特殊的字符,使用的是ASCII编码的值,键盘是打不出来的。 vim编辑器里显示为^A,一些文本编辑器里显示SOH。
创建表的示例
创建表
create database if not exists wangzhe;
use wangzhe;
create table t_archer(
id int comment "ID" ,
name string comment "英雄名称" ,
hp_max int comment "最大生命" ,
mp_max int comment "最大法力" ,
attack_max int comment "最高物攻" ,
defense_max int comment "最大物防" ,
attack_range string comment "攻击范围" ,
role_main string comment "主要定位" ,
role_assist string comment "次要定位"
) comment "王者荣耀射手信息"
row format delimited
fields terminated by "\t" ;
将数据文件传入hdfs中
hadoop fs -put archer.txt /user/hive/warehouse/wangzhe.db/t_archer
SELECT * FROM t_archer;
Hive show语法
显示所有数据库 SCHEMAS和DATABASES的用法 功能一样
show databases ;
show schemas;
show tables ;
SHOW TABLES [ IN database_name] ;
desc formatted t_team_ace_player;