src="http://service.weibo.com/staticjs/weibosharev2.html?url=http%3A%2F%2Fwww.iteblog.com%2Farchives%2F836&type=button&ralateUid=1614520581&language=zh_cn&appkey=2D9AJC&searchPic=true&style=number" width="128" height="25" frameborder="0" scrolling="no" marginheight="0" style="margin: 0px; padding: 0px; border-width: 0px; outline: 0px;">
写在前面的话,学
Hive这么久了,发现目前国内还没有一本完整的介绍
Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《
Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关
Hive的资料,如果对Hive的东西感兴趣,请关注本博客。
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。
索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚,提供的选项还较少。但是,索引被设计为可使用内置的可插拔的java代码来定制,用户可以扩展这个功能来满足自己的需求。 当然不是说有的查询都会受惠于Hive索引。用户可以使用EXPLAIN语法来分析HiveQL语句是否可以使用索引来提升用户查询的性能。像RDBMS中的索引一样,需要评估索引创建的是否合理,毕竟,索引需要更多的磁盘空间,并且创建维护索引也会有一定的代价。 用户必须要权衡从索引得到的好处和代价。
下面说说怎么创建索引:
1、先创建表:
1
2
3
4
|
hive> create table user( id
int
, name string)
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY
'\t'
> STORED AS TEXTFILE;
|
2、导入数据:
1
2
|
hive> load data local inpath
'/export1/tmp/wyp/row.txt'
> overwrite into table user;
|
3、创建索引之前测试
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|