MapReduce和Hive

最新推荐文章于 2024-08-27 06:39:08 发布

不才一首歌

最新推荐文章于 2024-08-27 06:39:08 发布

阅读量8k

点赞数

分类专栏：大数据学习笔记文章标签： MapReduce和Hive

本文链接：https://blog.csdn.net/Albert_ycl/article/details/79386619

版权

本文介绍了MapReduce的原理，强调其作为大数据并行计算框架的角色，以及Hive作为基于Hadoop的数据仓库，提供了SQL接口进行数据分析。Hive擅长非实时、离线的批量计算，其架构包括客户端、Hive服务和Map/Reduce作业。MapReduce与TEZ的区别在于，TEZ是优化过的DAG计算框架，运行在YARN上，支持更多元的操作，速度更快。Hive的CLI命令包括数据库操作、表操作和配置参数设置，此外还介绍了Beeline连接方法及Hive建表语句的参数解释。

摘要由CSDN通过智能技术生成

1,MapReduce的原理，Wordcount的过程

1.1,Mapreduce是一个计算框架，既然是做计算的框架，那么表现形式就是有个输入（input），mapreduce操作这个输入（input），通过本身定义好的计算模型，得到一个输出（output），这个输出就是我们所需要的结果。

1.2,对待大数据处理：分而治之,大数据的并行化计算

1.3,不可分拆的计算任务或相互间有依赖关系的数据无法进行并行计算

Map: 对一组数据元素进行某种重复式的处理

Reduce: 对Map的中间结果进行某种进一步的结果整

MapReduce是一种编程思想，可以使用java来实现，C++来实现。Map的作用是过滤一些原始数据，Reduce则是处理这些数据，得到我们想要的结果，比如你想造出番茄辣椒酱。也就是我们使用hadoop，比方来进行日志处理之后，得到我们想要的关心的数据

图中对数据进行提取处理,得到想要的数据.分成Map阶段和Reduce阶段，Map阶段中编写出相应场景的计算程序，将数据进行并行处理并过滤。Reduce阶段就是将Map阶段中得到的数据根据自己的需求进行得到自己想要的数据。

WordCount：给你一批数据，得到其中的需求数据。首先，统计每一个数据块中的需求数据，然后将提取所有的需求数据放在一起。

2，Hive架构

2.1，Hive是什么？

Hive 就是基于hadoop上的数据仓库。

Hive就是在Hadoop上架了一层SQL接口（HQL作为查询接口），可以将SQL翻译成MapReduce（执行层）去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析，而不必使用编程语言开发MapReduce那么麻烦。Hive的所有数据都存储在HDFS中。

2.2，hive擅长什么？

Hive擅长的是非实时的、离线的、对响应及时性要求不高的海量数据批量计算，即席查询，统计分析。

2.3，Hive架构

分为三部分:客户端，hive服务，转化的Map/Reduce作业

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver（图中三个组件），结合元数据(MetaStore)，将这些指令翻译成Map/Reduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

3，MapReduce跟TEZ区别

3.1，TEZ是啥？

Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。总结起来，Tez有以下特点：
（1）Apache二级开源项目（源代码今天发布的）
（2）运行在YARN之上
（3）适用于DAG（有向图）应用（同Impala、Dremel和Drill一样，可用于替换Hive/