hive

最新推荐文章于 2024-02-10 23:16:00 发布

龙猫。

最新推荐文章于 2024-02-10 23:16:00 发布

阅读量176

点赞数

本文链接：https://blog.csdn.net/gree_/article/details/103423589

版权

Hive是一个基于Hadoop的数据仓库工具，提供类SQL查询功能，适合大数据分析。它将HQL转化为MapReduce任务，数据存储于HDFS，并在Yarn上运行。Hive的优势在于其简单的SQL接口和处理大数据的能力，但缺点包括效率低、HQL表达能力有限及调优困难。元数据存储在Metastore，用户可以通过CLI、JDBC/ODBC或WEBUI进行交互。Hive可以通过hiveserver2和beeline进行jdbc访问，并有多种交互命令供用户操作。

摘要由CSDN通过智能技术生成

什么是hive？(本质、作用、优缺点)

hive是基于hadoop的一个数据仓库工具，可以将结构化
的数据文件映射为一张表，并提供类sql查询功能。
hive本质:
1.将hql转化成MapReduce程序
2.Hive处理的数据存储在HDFS
3.Hive分析数据底层的实现是MapReduce
4.执行程序运行在Yarn上
优点:
1.操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。
2.避免了去写MapReduce，减少开发人员的学习成本。
3.Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。
4.Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。
5.Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
缺点：
1.Hive的HQL表达能力有限
2.迭代式算法无法表达
3.数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现。
4.Hive的效率比较低
5.Hive自动生成的MapReduce作业，通常情况下不够智能化
6.Hive调优比较困难，粒度较粗

hive的架构图

在这里插入图片描述
1．用户接口：Client
CLI（command-line interface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）
2．元数据：Metastore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
3．Hadoop
使用HDFS进行存储，使用MapReduce进行计算。
4．驱动

最低0.47元/天解锁文章

龙猫。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive

什么是hive？(本质、作用、优缺点)hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类sql查询功能。hive本质:1.将hql转化成MapReduce程序2.Hive处理的数据存储在HDFS3.Hive分析数据底层的实现是MapReduce4.执行程序运行在Yarn上优点:1.操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手...
复制链接

扫一扫