5.3.《hadoop实战》Hadoop数据管理之Hive

        Hive是建立在Hadoop上的数据仓库基础构架。 它提供了一系列的工具, 用来进行数据提取 、 转化、 加载, 这是一种可以存储、 查询和分析存储在Hadoop中的大规模数据的机制。 Hive定义了简单的类SQL查询语言, 称为 QL, 它允许熟悉SQL的用户查询数据。 作为一 个数据仓库 ,Hive的数据管理按照使用层次可以从元数据存储、 数据存储和数据交换三个方面来介绍。

        (I)元数据存储
        Hive将无数据存储在 RDBMS中, 有三种模式可以连接到数据库:

        1).Single User Mode :此模式连接到一个In-memory的数据库 Derby,一般用于UnitTest.
        2).MultiUser Mode : 通过网络连接到一个数据库中, 这是最常用的模式。
        3).Remote Server Mode :用于非Java 客户端访问元数据库, 在服务器端启动一个MetaStoreServer,客户端则利用Thrift协议通过MetaStoreServer采访问元数据库。
        (2)数据存储
        首先, Hive没有专门的数据存储格式,也没有为数据建立索引, 用户可以非常自由地组织Hive中的表, 只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符 ,它就可以解析数据了。
        其次, Hive中所有的数据都存储在HDFS中, Hive中包含4种数据模型:Table、 External Table、Partition、Bucket。
        Hive中的Table和数据库中的Table在概念上是类似的,每一个Table在Hive中都有 一个相应的目录来存储数据。 例如, 一个表 pvs,它在HDFS中的路径为:/wh/pvs,其中, wh是在 hive-site.xml中由$ {hive.metastore. warehouse.dir}指定的数据仓库的目录 , 所有的Table数据(不包括External Table)都保存在这个目录中。

        Partition对应子数据库中Partition列的密集索引,但是Hive中Partition的组织方式与数据库中的很不相同.在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition数据都存储在对应的目录中.例如:pvs表中包含ds和city两个Partition,贝lj对应 于ds= 20090801, city= US的HDFS子目录为:/wh/pvs/ds=20090801/city=US:对应于ds= 20090801, city= CA的HOPS子目录为:/wh/pvs/ds=20090801/city=CA.
         Buckets对指定列计算hash,根据hash值切分数据,目的是为了便于并行,每一个Buckets对应一个文件.将user列分散至32个Bucket上,首先对user列的值计算hash,比 如,对应hash值为0的HDFS目录为:/wh/pvs/ds=20090801 /city=US/part-00000;对应hash值为20的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00020;

        External Table指向已经在HDFS中存在的数据,可以创建Partjtion。它和Table在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。

        在Table的创建过程和数据加载过程〈这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时, 表中的数据和元数据将会被同时删除。

      External Table只有一个过程,因为加载数 据和创建表是同时完成的.实际数据是存储在Location后面指定的HDFS路径中的,它并不会移动到数据仓库目录中.

(3)数据交换
数据交换主要分为以下几个部分

1.用户接口:包括客户端、Web界面和数据库接口.
2.元数据存储:通常是存储在关系数据库中的,如MySQL、Derby等。口解释器、编译器、优化器、执行器。
3.Hadoop:用HDFS进行存储,利用MapReduce进行计算。

        用户接口主要有三个:客户端、数据库接口和Web界面,其中最常用的是客户端. Client是Hive的客户端,当启动Client模式时,用户会想要连接HiveServer,这时需要指出Hive Server所在的节点,并且在该节点启动Hive Server. Web界面是通过浏览器访问 Hive的。

        Hive将元数据存储在数据库中,如MySQL、Derby中。Hive中的元数据包括表的名字、表的列和分区及其属性 ,表的属性〈是否为外部表等〉、 表数据所在的目录等.

        解解释器、 编译器 ,优化器完成HQL查询语句从词总分析、 语能分析、 编译、 优化到查询计划的生成. 生成的聋词计划存储在HDFS中, 并在随后囱MapReduce调用执行.
        Hive的数据存储在HDFS中, 大部分的查询由MapReduce完成(包含*的查询不会生成MapRedcue任务 , 比如select • from tbl). 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值