Hive做数据仓库，对Hadoop Hive 的多用户的资源分配和权限管理（Hortonworks HDP2.2 hadoop 2.6）

最新推荐文章于 2024-07-02 15:52:09 发布

tiimfei

最新推荐文章于 2024-07-02 15:52:09 发布

阅读量4.6k

点赞数

分类专栏： hadoop 文章标签： hortonworks hadoop集群数据仓库 hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiimfei/article/details/47127531

版权

本文介绍了基于HDP2.2和Hadoop 2.6的Hive数据仓库解决方案，关注点在于多用户的资源分配和权限管理。通过CapacityScheduler实现YARN集群计算资源分配，防止用户不合理任务占用资源。同时，采用Hive的SQL标准授权，控制用户对数据仓库的访问权限，并讨论了集群存储资源分配策略，确保资源合理利用。

摘要由CSDN通过智能技术生成

我正在搭建一个基于Hadoop/hive的数据仓库方案。使用的Hortonworks的HDP2.2 版本。数据仓库主要的使用场景（use case）是

1. 从各数据源通过ETL 将数据汇集到hadoop 和hive中。

2. 在Hive中进行各种归集运算后，将数据结果导出到一个关系数据库中，并通过报表工具将数据展现给用户。

3. 支持数据分析师直接登录到Hive客户端（Hue），使用SQL对hive中的表进行自有查询。

要支持需求1,2 ，我们打算使用类似Kettle 这样的ETL工具，并配合sqoop 将数据源ETL的过程进行串联和管理。

要支持需求3，则需要考虑到如何让集群同时为多个用户服务则需要考虑几个方面的功能：

a. 集群计算资源的分配，

当一个用户提交查询sql时，集群应该自动分配给他相应的计算资源。而避免出现一个用户提交了不合理的任务，长期将集群资源全部占用的情况。

使用yarn的capacity scheduler ，通过为不同的团队分配任务队列，来实现控制用户间资源争抢的目的。

b. 数据仓库中数据访问的权限管理

用户根据自己的业务需求，对不同的Hive 数据库和表有访问权限。使用hive的sql standard based authorization ，对不同的用户分配对sql 对象（如表，数据库）的各种权限。

c. 集群存储资源的分配

数据分析师在使用集群计算资源时，可能会生成一些临时表。也可能将一些数据导入集群。集群管理员可以给不同用户配置不同的存储配额，以保证集群存储资源被合理利用。

下面我们就分别来看

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。