Hive的特点、体系结构及工作流程

Hive是一款针对海量数据进行高效查询和分析的工具,采用类SQL的HiveQL语言,具备高性能、高扩展性和容错性。其体系结构包括用户接口、元数据存储、解释器、优化器和执行器。工作流程涉及HQL的编译、元数据检索、MapReduce任务执行以及结果获取。Hive与Hadoop生态完全兼容,支持多种数据源和格式。
摘要由CSDN通过智能技术生成

Hive的特点

针对海量数据的高性能查询和分析
由于hive的查询是基于MapReduce框架实现有,而MapReduce本身就是针对海量数据的高性能处理而设计的,所以hive天然就能高效的处理海量数据。
与此同时hive针对HiveQL到MapReduce的翻译进行了大量的优化,从而保证了生的MapReduce任务高效,在实际应用中,hive可以高效的对TB甚至PB级的数据进行处理。
类sql的查询语言
HiveQL和SQL语法十分类似,所以一个熟悉SQL语法的用户基本上不需要培训就能很容易的使用Hive进行很复杂的数据查询业务。
HiveQL灵活的可扩展性(Extendibility)
除了Hive自身提供的功能,用户还可以自定义使用的数据类型,也可以使用其它语言自定义Mapper和Reduce脚本,还可以自定义函数(普通、聚集函数)等。这就赋予了HiveQL极大的可扩展性,用户可以利用这种可扩展性实现复杂的查询。
高扩展性(Scalability)和容错性
Hive本身并没有执行机制,用户查询的执行是通过MapReduce框架现实的,由于MapReduce框架本身具有高可扩展性(计算能力随Hadoop集群中机器的数量增加而线性增加)和高容错性的特点,所以Hive也相应具有这些特点。
与Hadoop其它产品完全兼容
Hive自身并不存储用户数据,而是通过接口访问用户数据,这就使的Hive支持各种数据源和数据格式,例如它支持处理HDFS上的各种文件格式(TextFile、Sequence

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值