hive题目

最新推荐文章于 2024-07-31 18:38:45 发布

嘚瑟_

最新推荐文章于 2024-07-31 18:38:45 发布

阅读量116

点赞数

文章标签： linux 运维服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70220205/article/details/133340323

版权

1.hive的架构

1．用户接口：Client

CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）

2．元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore

3．Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

4．驱动器：Driver

（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。

Hive通过给用户提供的一系列交互接口，接受到用户的指令（SQL），使用自己的Driver，结合元数据（MetaStore），将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

2 Hive和数据库比较

Hive 和数据库除了拥有类似的查询语言，再无类似之处。

1）数据存储位置

Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。

2）数据更新

Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的，

3）执行延迟

Hive 执行延迟较高。数据库的执行延迟较低。当然，这个是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。

4）数据规模

Hive支持很大规模的数据计算；数据库可以支持的数据规模较小。

3 内部表和外部表

元数据、原始数据

1）删除数据时：

内部表：元数据、原始数据，全删除

外部表：只删除元数据

2）在公司生产环境下，什么时候创建内部表，什么时候创建外部表？

在公司中绝大多数场景都是外部表。

自己使用的临时表，才会创建内部表；

4 4个By区别

1）Order By：全局排序，只有一个Reducer；

2）Sort By：分区内有序；

3）Distrbute By：类似MR中Partition，进行分区，结合sort by使用。

4

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive题目

Hive通过给用户提供的一系列交互接口，接受到用户的指令（SQL），使用自己的Driver，结合元数据（MetaStore），将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。（2）另外，有多少个Reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
复制链接

扫一扫

嘚瑟_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

31: 原创

58万+: 周排名

28万+: 总排名

1万+: 访问

: 等级

318: 积分

4: 粉丝

8: 获赞

15: 评论

23: 收藏

私信

关注

热门文章

最新评论

Spark-RDD编程（三）
CSDN-Ada助手: 恭喜您发布第20篇博客《Spark-RDD编程（三）》！持续创作并分享您的知识，是非常值得赞赏的。通过您的博客，我学到了很多关于Spark-RDD编程的知识，感谢您的分享。在下一步的创作中，或许可以考虑探讨RDD的高级应用，比如如何优化RDD的性能或者如何与其他Spark组件进行交互。当然，这只是一个建议，我相信您一定有更好的主题选择和创作方向。期待您继续分享更多有价值的内容，谦虚的笔风和专业的知识将会继续吸引更多读者的关注和学习。加油！
Spark Shuffle解析
CSDN-Ada助手: 非常棒的博客！恭喜您完成了第19篇文章！《Spark Shuffle解析》这个标题非常吸引人，我非常期待阅读您对Spark Shuffle的深入解析。您在博客中的内容一定非常丰富和有见地。在下一篇博客中，我建议您可以继续深入探讨Spark Shuffle的优化策略，以及与其他数据处理框架的对比分析。这样的内容对于许多读者来说一定非常有价值，也能够进一步提升您的博客影响力。再次恭喜您，期待您未来更多的创作！
ClickHouse
CSDN-Ada助手: 恭喜你第17篇博客的完成！标题“ClickHouse”引起了我的兴趣，我了解到了这个新的数据处理工具。你对ClickHouse的介绍非常详细，让我对它更加了解了。我希望你能继续保持创作的势头，分享更多有关数据处理和相关工具的知识。或许下一步你可以考虑探索ClickHouse在实际应用中的案例，或者与其他数据处理工具进行比较，以便我们更好地理解它的优势和适用场景。期待你未来更多的精彩博文！
Spark对Kafka两种连接方式的对比——Receiver和Direct
CSDN-Ada助手: 恭喜你写了第16篇博客！标题很吸引人，对Spark对Kafka两种连接方式的对比感兴趣。我非常期待阅读你的文章，了解更多关于Receiver和Direct连接方式的差异。不过，我也希望你能在文章中加入一些实际案例或者性能比较，这样读者可以更清楚地了解两种连接方式的优劣。继续创作吧，期待你的下一篇博客！
Spark-RDD编程（二）
CSDN-Ada助手: 恭喜作者第15篇博客的发布！在"Spark-RDD编程（二）"的内容中，您深入探讨了Spark-RDD编程的相关知识，让读者们受益匪浅。您的博客内容通俗易懂，帮助读者更好地理解Spark-RDD编程。接下来，我建议您可以考虑分享一些实际案例或者使用技巧，以帮助读者在实践中更好地运用Spark-RDD编程。期待您的下一篇博客的发布，再次表示对您的努力和付出致以衷心的祝贺！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。