Hive语句是如何转化成MapReduce任务的

假如面试时给你一个这样的问题,你怎么解决。

你要知道mapper和reducer工作的原理,从文件里按照key-value,一条一条记录读的,然后对数据做分解处理。

 

 

首先通过key-value传进来,每个value就是上图的一条记录,然后根据逗号我来分解他。

获得这个字符串数组,如果第2个元素等于bee,那我就把它写出去。

因为你sql语句,select的是id,所以我把第一个元素作为key写出去。

 

然后在reducer里,key就是那个id,value还是那条记录,不过我们要查的就是id,所以不用把value写出去。

所以是NullWritable.get()

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hive是一个基于Hadoop的数据仓库工具,它使用HiveQL(HQL)作为查询语言,将HQL语句转换为MapReduce任务来执行。下面是Hive将HQL转换为MapReduce的过程: 1. 解析HQL语句Hive首先解析HQL语句,生抽象语法树(AST)。 2. 生逻辑执行计划:Hive根据AST生逻辑执行计划(Logical Execution Plan),该计划描述了查询的逻辑执行流程,包括输入数据、输出数据、数据过滤、数据聚合等。 3. 生物理执行计划:Hive根据逻辑执行计划生物理执行计划(Physical Execution Plan),该计划描述了如何将逻辑执行计划转换为MapReduce任务,包括如何对数据进行切分、如何进行数据传输、如何进行数据聚合等。 4. 生MapReduce任务Hive使用物理执行计划生MapReduce任务,这些任务通过JobTracker调度在Hadoop集群中运行。MapReduce任务包括Map任务Reduce任务Map任务用于对输入数据进行处理和过滤,Reduce任务用于对Map任务的输出进行聚合。 5. 执行MapReduce任务:Hadoop集群开始执行MapReduce任务Map任务从HDFS中读取输入数据,对数据进行处理和过滤,将结果写入HDFS中;Reduce任务从HDFS中读取Map任务的输出数据,进行聚合和统计,将结果写入HDFS中。 6. 返回查询结果:Hive从HDFS中读取MapReduce任务的输出结果,对结果进行格式化和排序,最终返回给用户。 总的来说,Hive将HQL转换为MapReduce的过程包括解析HQL语句、生逻辑执行计划、生物理执行计划、生MapReduce任务、执行MapReduce任务和返回查询结果。这个过程需要涉及到Hive的元数据管理、查询优化、任务调度等多个方面的技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值