大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？

原创已于 2022-04-06 09:17:47 修改 · 4.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据开发面试题 #大数据面试

于 2022-03-07 16:41:51 首次发布

大数据面试题专栏收录该内容

68 篇文章

订阅专栏

Hive是Hadoop生态系统中的数据仓库工具，提供类SQL查询功能，简化了将SQL应用程序转移到Hadoop的过程。它的主要优点包括易于使用、降低开发成本，适合处理大数据分析。然而，Hive的效率较低，HQL功能有限，不适合实时查询和复杂算法，且调优困难。Hive通过将HQL转换为MapReduce作业在HDFS上执行，适用于离线数据分析场景。

1、为什么要使用Hive？

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。

大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为查询语言。Hive降低了将这些应用程序转移到Hadoop系统上的难度。凡是会使用SQL语言的开发人员都可以很轻松的学习并使用Hive。如果没有Hive，那么这些用户就必须学习新的语言和工具，然后才能应用到生产环境中。另外，相比其他工具，Hive更便于开发人员将基于SQL的应用程序转移到Hadoop中。如果没有Hive，那么开发者将面临一个艰巨的挑战，如何将他们的SQL应用程序移植到Hadoop上。

2、Hive优缺点

优点

1）操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

2）避免了去写MapReduce，减少开发人员的学习成本。

3）Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

4）Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

5）Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点

1）Hive的HQL表达能力有限

迭代式算法无法表达
数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现。

2）Hive的效率比较低

Hive自动生成的MapReduce作业，通常情况下不够智能化
Hive调优比较困难，粒度较粗

Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所能胜任的工作。其中最大的限制就是Hive不支持记录级别的更新、插入或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入到文件中。同时，因为Hadoop是面向批处理的系统，而MapReduce任务（job）的启动过程需要消耗较长的时间，所以Hive查询延时比较严重。传统数据库中在秒级别可以完成的查询，在Hive中，即使数据集相对较小，往往也需要执行更长的时间。

3、Hive的作用

Hive是由Facebook开源用于解决海量结构化日志的数据统计工具。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

Hive的本质是将HQL转化成MapReduce程序