Hive 工作机制

Hive 简介

Hive 是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表,
并提供SQL查询功能,可将SQL语句转换为MapReduce任务进行。

优点:学习成本低、可以通过类SQL语句快速实现MapReduce统计。

Hive 工作机制

  1. 将清洗过的数据放入到HDFS中,就可以进行各种统计了
  2. Hive运行时,元数据信息存储在关系型数据库里面,如Mysql,derby。Hive中的元数据包括表的名字、表的列和分区及其属性,表的属性、表的数据所在目录等。
  3. Hive的数据存储在HDFS中,大部分的查询计算由MapReduce完成。
  4. 可以在Hive中建表
  5. 然后可使用SQL语句查询,每一个SQL语句都被HIve的语法解析器解析,组装成一个MapReduce程序,然后提交给yarn,运行完成后可以把结果输出出来,也可以把表写到其他表里。

与Hadoop的关系

Hive利用HDFS存储数据,利用MapReduce查询数据

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值