Hive

1.Hive简介

Hive是一个基于Hadoop文件系统上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL工具、数据存储管理和大型数据集的查询与分析能力。Hiverson定义了类SQL的语言--Hive QL,Hive QL允许用户进行和SQL类似的操作。

Hive适用于处理不变的大规模数据集(例如网络日志)上的批量任务,不提供数据数据排序和查询cache功能,也不提供在线事务处理、实时的查询以及记录集的更新。Hive最大的价值是可扩展性(基于Hadoop平台,可以自动适应机器数目和数据量的动态变化)、可延展性(结合MapReduce和用户定义的函数库),并且拥有良好的容错性和低约束的数据输入格式。

Hive本身建立在Hadoop的体系架构上,提供了一个SQL解析过程,并从外部接口中获取命令,以对用户指令进行解析。Hiverson可将外部命令解析成一个MapReduce可执行计划,并按照该计划生成MapReduce任务后交给Hadoop集群处理。


2.Hive的数据存储

Hive的存储是建立在Hadoop文件系统之上的,Hive本身没有专门的数据存储格式,也不能为数据建立索引,用户可以非常自由的组织Hive中的表,只需要子创建表的时候告诉Hive数据中的列分隔符和行分隔符就可以解析数据了。

Hive中主要包含四种数据类型:表(Table)、外部表(External Table)、分区(Partition)和桶(Bucket)。

Hive中的表和数据库中的表在概念上是类似的,每个表在Hive中都有一个对应的存储目录。例如,一个表table在HDFS中的路径为/datawarehouse/htable,其中datawarehouse是hive-site.xml配置文件中由${hive:metastore.warehouse.dir}指定的数据仓库的目录,所有的表数据(除了外部表)都保存在这个目录中。





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值