Hive创建索引

最新推荐文章于 2024-07-29 11:58:18 发布

过往记忆

最新推荐文章于 2024-07-29 11:58:18 发布

阅读量2.1w

点赞数 5

分类专栏： Hive 海量数据处理 Hive的那些事文章标签： Hive 数据库大数据

本文链接：https://blog.csdn.net/wypblog/article/details/17436003

版权

本文介绍了Hive的索引功能，包括其作用、限制以及如何创建索引。Hive的索引能加速特定查询，但并非所有查询都能受益。用户需要通过EXPLAIN语法检查查询是否利用索引，并考虑索引的磁盘空间和维护成本。文章通过实例演示了创建索引的步骤，并提及了一个在早期Hive版本中存在的相关bug。

摘要由CSDN通过智能技术生成

src="http://service.weibo.com/staticjs/weibosharev2.html?url=http%3A%2F%2Fwww.iteblog.com%2Farchives%2F836&type=button&ralateUid=1614520581&language=zh_cn&appkey=2D9AJC&searchPic=true&style=number" width="128" height="25" frameborder="0" scrolling="no" marginheight="0" style="margin: 0px; padding: 0px; border-width: 0px; outline: 0px;">

　　写在前面的话，学 Hive这么久了，发现目前国内还没有一本完整的介绍 Hive的书籍，而且互联网上面的资料很乱，于是我决定写一些关于《 Hive的那些事》序列文章，分享给大家。我会在接下来的时间整理有关 Hive的资料，如果对Hive的东西感兴趣，请关注本博客。

　　Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。下面分别来介绍。

　　索引是标准的数据库技术，hive 0.7版本之后支持索引。Hive提供有限的索引功能，这不像传统的关系型数据库那样有“键(key)”的概念，用户可以在某些列上创建索引来加速某些操作，给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚，提供的选项还较少。但是，索引被设计为可使用内置的可插拔的java代码来定制，用户可以扩展这个功能来满足自己的需求。当然不是说有的查询都会受惠于Hive索引。用户可以使用EXPLAIN语法来分析HiveQL语句是否可以使用索引来提升用户查询的性能。像RDBMS中的索引一样，需要评估索引创建的是否合理，毕竟，索引需要更多的磁盘空间，并且创建维护索引也会有一定的代价。用户必须要权衡从索引得到的好处和代价。
　　下面说说怎么创建索引：
　　1、先创建表：

 
        hive> create table user( id  
        int 
        , name string)   
       
        > ROW FORMAT DELIMITED   
       
        > FIELDS TERMINATED BY  
        '\t' 
       
        > STORED AS TEXTFILE;

　　2、导入数据：

 
        hive> load data local inpath  
        '/export1/tmp/wyp/row.txt' 
       
        > overwrite into table user;

　　3、创建索引之前测试