Hive基本概念

最新推荐文章于 2025-01-18 18:33:40 发布

luna枫

最新推荐文章于 2025-01-18 18:33:40 发布

阅读量389

点赞数 8

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74298808/article/details/136714334

版权

1.1什么是hive
hive简介

Hive：由FaceBook开源用于解决海量结构化日志的数据统计工具

Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL的查询功能。

Hive本质

将HSQL转化成MapReduce程序

1.Hive处理的数据存储在HDFS
2.Hive分析数据底层实现的是MR
3.执行程序运行在Yarn上

1.2 Hive的优缺点

1.2.1 优点

接口采用类SQL语法，提供快速开发的能力

避免了去写MR程序，减少开发人员的学习成本

Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合

Hive的优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高

Hive支持自定义函数，用户可以根据自己的需求来实现自己的函数

1.2.2 缺点

1.Hive的HSQL表达能力有限
2.迭代算法无法表达
3.数据挖掘方面不擅长，由于MR数据处理流程的限制，效率更高的算法却无法实现
4.Hive的效率比较低
5.Hive自动生成的MR作业，通常情况下不够智能化
6.Hive调优比较困难，粒度较粗

1.3 Hive运行机制

Hive通过用户提供的一系列交互接口，接收到用户的指令（SQL），使用自己的Driver，结合元数据（Metastore），将这些指令翻译成MR，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

1.4 Hive和数据库比较

由于Hive采用类似SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构来看，Hive 和数据库除了用于类似的查询语言，
再无类似之处。

1.4.1 数据更新

由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少。因此，Hive中不建议对数据的改写，所有数据都是在加载的时候
确定好的。而数据库中的数据通常是需要进行修改的，因此可以采用insert into ... values添加数据，使用update ... set修改数据

1.4.2 执行延迟

Hive在查询数据的时候，由于没有索引，需要扫描整个表。因此延迟较高。由于Hive底层使用的MR框架，而MR本身具有较高的延迟，因此
在利用MR执行Hive查询的时候，也有较高的延迟。

1.4.3 数据规模

由于Hive简历在集群上可以利用MR进行并行计算，因此可以支持很大规模的数据。对应的，数据库可以支持的数据规模较小。

luna枫 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

68万+: 周排名

29万+: 总排名

5554: 访问

: 等级

128: 积分

63: 粉丝

77: 获赞

1: 评论

60: 收藏

私信

关注

热门文章

最新评论

Django项目框架搭建
CSDN-Ada助手: 恭喜用户成功发布了第三篇博客《Django项目框架搭建》，看来你对Django项目框架的搭建已经有了一定的了解和经验。希望你能继续保持创作的热情，不断分享自己的学习心得和经验。接下来，建议你可以尝试深入探讨Django项目框架的优化和扩展，或者结合实际项目经验分享一些实用的技巧和经验，让读者收益更多。期待你的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Hive基本概念
CSDN-Ada助手: 很高兴看到你写了第二篇博客！继续努力，坚持创作，相信你的文章会越来越有深度和吸引力。除了介绍Hive的基本概念，你还可以进一步探讨Hive的数据模型、数据查询语言HQL的使用技巧，以及Hive与其他大数据处理工具的对比和应用场景等内容。希望你能在未来的文章中进一步拓展自己的知识和技能，为读者带来更多价值和启发！期待你的下一篇作品！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
win10环境安装docker及使用docker搭建hadoop、hive环境
CSDN-Ada助手: 恭喜您在博客世界中迈出了第一步！标题看起来非常吸引人，我相信您的经验分享一定会受到很多人的关注和喜爱。接下来，我建议您可以尝试分享一些具体的操作步骤、遇到的问题及解决方法，这样可以让读者更好地理解和学习您的经验。希望您在博客创作的道路上越走越远，加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
win10环境安装docker及使用docker搭建hadoop、hive环境
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618145807。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。