基于Hadoop的数据仓库之Hive

最新推荐文章于 2024-01-21 21:46:45 发布

weixin_42361860

最新推荐文章于 2024-01-21 21:46:45 发布

阅读量256

点赞数 1

分类专栏： Hadoop 文章标签： Hadoop Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42361860/article/details/96573046

版权

Hive是由Facebook开源的数据仓库工具，基于Hadoop，提供类SQL查询HDFS数据的功能。它具有可扩展性、自定义函数支持和良好容错性，但不适合实时查询。Hive的元数据存于RDBMS，数据存储在HDFS，表可以是内部、外部、分区或分桶形式，便于大规模数据的管理和分析。

摘要由CSDN通过智能技术生成

Hive的基本概念

1.1、Hive 简介

什么是 Hive，Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计。

1.2、为什么使用 Hive

为什么要使用 Hive：
更友好的接口：操作接口采用类 SQL 的语法，提供快速开发的能力
更低的学习成本：避免了写 MapReduce，减少开发人员的学习成本
更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

1.3、Hive特点

优点：

1.可扩展性，横向扩展，Hive 可以自由的扩展集群的规模，一般情况下不需要重启服务

横向扩展：通过分担压力的方式扩展集群的规模
纵向扩展：一台服务器cpu i7-6700k 4核心8线程，8核心16线程，内存64G => 128G

2、延展性，Hive 支持自定义函数，用户可以根据自己的需求来实现自己的函数
3、良好的容错性，可以保障即使有节点出现问题，SQL 语句仍可完成执行

缺点：

1、Hive 不支持记录级别的增删改操作，但是用户可以通过查询生成新表或者将查询结
果导入到文件中（hive-

最低0.47元/天解锁文章

weixin_42361860

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。