1.Database:相当于关系数据库里的命名空间(namespace),它的作用是将用户和数据库的应用隔离到不同的数据库或模式中,该模型在hive 0.6.0之后的版本支持,hive提供了create database dbname、use dbname以及drop database dbname这样的语句。
2.表(table):hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里,例如HDFS,元数据存储在关系数据库里,当我们创建一张hive的表,还没有为表加载数据的时候,该表在分布式文件系统,例如hdfs上就是一个文件夹(文件目录)。
Hive里的表友两种类型一种叫内部表,这种表的数据文件存储在hive的数据仓库里,内部表做删除表,就删除了目录及数据。
一种叫外部表,这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上,也可以放到hive数据仓库里(注意:hive的数据仓库也就是hdfs上的一个目录,这个目录是hive数据文件存储的默认路径,它可以在hive的配置文件里进行配置,最终也会存放到元数据库里)。外部表做删除表,只是删除了元数据的信息,并不会删除HDFS上的数据。
下面是创建内部表的实例语句:
Create
table
tuoguan_tbl (flied string);
Load
data
local
inpath ‘home/hadoop/test.txt’
into
table
tuoguan_tbl;
|
外部表创建的实例:
Create
external
table
external_tbl (flied string)
Location ‘/home/hadoop/external_table’;
Load
data
local
inpath ‘home/hadoop/test.txt’
into
table
external_tbl;
|
大家看到了创建外部表时候table之前要加关键字external,同时还要用location命令指定文件存储的路径,如果不使用locaction数据文件也会放置到hive的数据仓库里。
这两种表在使用的区别主drop命令上,drop是hive删除表的命令,托管表执行drop命令的时候,会删除元数据和存储的数据,而外部表执行drop命令时候只删除元数据库里的数据,而不会删除存储的数据。另外我还要谈谈表的load命令,hive加载数据时候不会对元数据进行任何检查,只是简单的移动文件的位置,如果源文件格式不正确,也只有在做查询操作时候才能发现,那个时候错误格式的字段会以NULL来显示。
3.分区(partition):hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制,在hive存储上就体现在表的主目录(hive的表实际显示就是一个文件夹)下的一个子目录,这个文件夹的名字就是我们定义的分区列的名字,没有实际操作经验的人可能会认为分区列是表的某个字段,其实不是这样,分区列不是表里的某个字段,而是独立的列,我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的,我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例:
创建分区:
Create
table
logs(ts
bigint
,line string)
Partitioned
by
(dt string,country string);
|
加载数据:
Local
data
local
inpath ‘/home/hadoop/par/file01.txt’
into
table
logs partition (dt=’2012-06-02’,country=’cn’);
|
在hive数据仓库里实际存储的路径如下所示:
/
user
/hive/warehouse/logs/dt=2013-06-02/country=cn/file1.txt
/
user
/hive/warehouse/logs/dt=2013-06-02/country=cn/file2.txt
/
user
/hive/warehouse/logs/dt=2013-06-02/country=us/file3.txt
/
user
/hive/warehouse/logs/dt=2013-06-02/country=us/file4.txt
|
我们看到在表logs的目录下有了两层子目录dt=2013-06-02和country=cn
查询操作:
Select
ts,dt,line
from
logs
where
country=’cn’,
|
这个时候我们的查询操作只会扫描file1.txt和file2.txt文件。
4.桶(bucket):上面的table和partition都是目录级别的拆分数据,bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件,要使用bucket,我们首先要打开hive对桶的控制,命令如下:
set
hive.enforce.bucketing =
true
|
下面这段文字是我引用博客园里风生水起的博文:
示例:
建临时表student_tmp,并导入数据:
hive>
desc
student_tmp;
OK
id
int
age
int
name
string
stat_date string
Time
taken: 0.106 seconds
hive>
select
*
from
student_tmp;
OK
1 20 zxm 20120801
2 21 ljz 20120801
3 19 cds 20120801
4 18 mac 20120801
5 22 android 20120801
6 23 symbian 20120801
7 25 wp 20120801
Time
taken: 0.123 seconds
建student表:
hive>
create
table
student(id
INT
, age
INT
,
name
STRING)
>partitioned
by
(stat_date STRING)
>clustered
by
(id) sorted
by
(age)
into
2 bucket
>row format delimited fields terminated
by
','
;
设置环境变量:
>
set
hive.enforce.bucketing =
true
;
插入数据:
>
from
student_tmp
>
insert
overwrite
table
student partition(stat_date=
"20120802"
)
>
select
id,age,
name
where
stat_date=
"20120801"
sort
by
age;
查看文件目录:
$ hadoop fs -ls /
user
/hive/warehouse/studentstat_date=20120802/
Found 2 items
-rw-r
--r-- 1 work supergroup 31 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000000_0
-rw-r
--r-- 1 work supergroup 39 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000001_0
|
物理上,每个桶就是表(或分区)目录里的一个文件,桶文件是按指定字段值进行hash,然后除以桶的个数例如上面例子2,最后去结果余数,因为整数的hash值就是整数本身,上面例子里,字段hash后的值还是字段本身,所以2的余数只有两个0和1,所以我们看到产生文件的后缀是*0_0和*1_0,文件里存储对应计算出来的元数据。
Hive的桶,我个人认为没有特别的场景或者是特别的查询,我们可以没有必要使用,也就是不用开启hive的桶的配置。因为桶运用的场景有限,一个是做map连接的运算,我在后面的文章里会讲到,一个就是取样操作了,下面还是引用风生水起博文里的例子:
查看sampling数据:
hive>
select
*
from
student tablesample(bucket 1
out
of
2
on
id);
Total MapReduce jobs = 1
Launching Job 1
out
of
1
.......
OK
4 18 mac 20120802
2 21 ljz 20120802
6 23 symbian 20120802
Time
taken: 20.608 seconds
tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x
OUT
OF
y)
y必须是
table
总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如,
table
总共分了64份,当y=32时,抽取 (64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如,
table
总bucket数为32,tablesample(bucket 3
out
of
16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。