Hive简介,架构与工作流程,环境搭建

Hive是基于Hadoop的数据仓库工具,提供类SQL查询功能,将SQL语句转化为MapReduce任务。它适用于大规模数据集的批处理作业,不适用于低延迟查询。Hive包含元数据存储、驱动器、解释器等模块,其工作流程涉及元数据存储、MapReduce任务执行。文章介绍了Hive的安装和配置过程,包括MySQL作为元数据存储的配置。
摘要由CSDN通过智能技术生成

Hive简介

  现如今,数据可能是当下最赚钱的资源了。面对如此多的数据,Hadoop提供了完美的解决方案,使用分布式文件系统HDFS存储数据,使用MapReduce计算模型来处理数据。不过,仍然存在着一系列的挑战,例如:(1)用户如何从一个现有的数据基础结构转移到Hadoop上,而这个结构是基于传统的关系数据库和结构化查询语句(SQL)的。(2)MapReduce计算框架实在是太麻烦,比如用MapReduce来join两个文件需要好多的代码量(前面博客写过)。可不可以在文件上直接使用类似于SQL的语句来进行操作数据,不写Mapper和Reducer函数。这样的话,对大多数的工程师来说,是真的再好不过了,能够直接使用类似于SQL语句的方式来处理数据,真是太舒服了。基于这一系列问题,建立在Hadoop上的数据仓库Hive营运而生。

Hive提供了一种类SQL的查询语言,叫做HvieQL,一种声明式的语言,用户会提交声明式的查询,而Hive会将其转换为MapReduce job.大多数情况下,用户不需要了解Hive内部是如何工作的,这样可以专注于手头上的事情。

  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

 

Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值