普通用户使用spark的client无法更新Ranger策略

最新推荐文章于 2025-01-16 14:57:06 发布

墨卿风竹

最新推荐文章于 2025-01-16 14:57:06 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签： spark 大数据分布式 hadoop ranger spark-sql

本文链接：https://blog.csdn.net/qq_43688472/article/details/132673306

文章讲述了普通Spark用户在尝试通过client更新Ranger策略时遇到403错误，原因在于Ranger的官方配置仅支持通配符*或指定用户列表。管理员权限用户可以直接下载策略。解决方法是检查并调整Ranger配置以允许特定用户访问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

普通用户使用spark的client无法更新Ranger策略

报错图片：

在这里插入图片描述

 WARN org.apache.ranger.admin.client.RangerAdminRESTClient: Error getting Roles. secureMode=true, user=caojianxiang@UCDIPA.VIATRIS.CC (auth:KERBEROS)，response=f"httpStatusCode":403,"statusCode":0serviceName=ranger-hive-service

解决：
policy.download.auth.users
查看官方的配置只支持2种写法
1、设置为通配符*，允许任何用户访问和下载策略文件
2、设置用户列表，例如：user1,user2,user3…
PS：admin 权限可以直接下载策略
操作：（采用了官方配置1）
在这里插入图片描述

验证：
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

墨卿风竹

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

利用Submarin集成Spark-Ranger

主要分享大数据相关的知识，如Spark、Hudi

05-03

1353

我的原创地址：https://dongkelun.com/2021/12/02/submarinSparkRanger/ 前言本文总结如果利用Submarin集成Spark-Ranger，通过ranger控制spark sql的权限前提已经安装了Spark、Hive、kerberos、Ranger,并且Hive已经集成了Ranger,本文环境基于Ambari submarine-spark-security 插件打包官网文档https://submarine.apache.org/docs/user

2024年最新使用Spark操作Hudi表详细教程_spark读取hudi

2401_84181070的博客

05-03

1308

参与评论您还未登录，请先登录后发表或查看评论

搭建CDP7.3.1平台出现的问题

wqy55621594的博客

06-16

1095

Apache Ranger KMS 部署文档

偷闲小苑

01-10

6134

很久没写过部署文档了，不过 Apache Ranger KMS 的手动部署较为繁琐，网上的相关资料基本都是散装的，因此写了一篇进行总结。文章目录背景安装部署安装 ranger-admin安装 ranger-kmsHDFS 配置Kerberos 配置HA 配置KMS LUNA HSMFAQ后记参考背景需要一个高可用的 KMS 服务用于数据静态加密（HDFS 透明加密 / ORC格式列加密）...

提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

a958014226的博客

05-17

884

在 Ranger 中添加一个新服务的权限校验可分为两部分：第一部分是为 Ranger 增加新服务模块；第二部分是在新服务中增加 Ranger权限校验插件。● Ranger 增加新服务模块Ranger 增加新服务模块是在 Ranger Admin Web UI 界面增加对应服务模块，用来为对应服务添加对应资源的授权策略。

Starrocks 开启 Ranger 权限认证支持

weixin_39750695的博客

01-16

1235

Starrocks, ranger , 权限

探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘

gitblog_00057的博客

08-06

734

探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【Apache Spark SQL Ranger Security Plugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级解决方案。今天，我们就来深入探讨这一开源项目，揭示其如何助力企业实现精细化的数据权...

2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi(2)

2401_84164527的博客

05-02

1112

【代码】2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi(2)

Zeppelin集成Ranger实现用户权限管控

u010543388的博客

07-30

2265

前言一、架构说明二、

提交spark yarn-cluster与yarn-client模式的致命区别

u013289115的博客

05-15

3863

一、组件版本二、提交方式三、运行原理四、分析过程五、致命区别六、总结一、组件版本调度系统：DolphinScheduler1.2.1 spark版本：2.3.2 二、提交方式 spark在submit脚本里提交job的时候，经常会有这样的警告 Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead. 这是因为你用了yarn-cl.

【Ranger-1.2.0 hdfs-plugin安装问题记录】

lin86182824的博客

12-16

2572

问题及解决 #我使用test账户对 /tmp目录访问,权限如下 #按照ranger的权限模型来说，hdfs自身权限拒绝掉之后会走到ranger这边看有无权限，我这里已经配置了权限。但是依旧没有权限访问因为开启插件后需要重启，我这里已经重启过了。再次想到的应该就是policy没有拉下来导致权限没有生效。也可以结合namenode日志看下。然后我就去排查了下… #policy的目录在/etc/ranger/$REPOSITORY_NAME/policycache/下果然… 权限配置好了但是polic

Ranger 常用 Rest API 介绍

weixin_39750695的博客

01-10

1380

ranger，数据安全，权限，apache ranger，API

CDH6.3.1集成ranger2.1，并且接管HDFS、Yarn、Hive组件详细步骤。亲测实现！！！

sunxunyong的博客

09-30

701

【代码】CDH6.3.1集成ranger2.1，并且接管HDFS、Yarn、Hive组件详细步骤。亲测实现！！！

用ranger对hive metastore 进行授权管理

从大数据到人工智能的博客

01-16

3274

hive standalone metastore 3.1.2可作为独立服务，作为spark、flink、presto等服务的元数据管理中心，然而在现有的hive授权方案中只有针对hiveserver2的授权，所以本文针对hive standalone metastore独立服务使用ranger对连接到hive metastore的用户进行授权访问，以解决hive standalone metastore无权限验证问题。为了测试验证，本文所作的操作都在一台centos 7.6主机上执行。 ranger编译

Spark Rdd

WangzhenBeyond的博客

07-08

168

Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是: ➢ RDD : 弹性分布式数据集 ➢ 累加器:分布式共享只写变量 ➢ 广播变量:分布式共享只读变量什么是Rdd？ RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ➢ 弹性存储的弹...

使用Apache Ranger提供授权 -- 02

TT-Learning

10-12

2917

ranger控制数据访问权限

最新发布

04-28

<think>好的，用户想了解Apache Hudi的开发规范和最佳实践。我需要先回忆Hudi的核心概念和常见的使用场景。Hudi主要用于大数据湖的增量处理，支持高效的upsert和事务管理。首先，最佳实践可能涉及数据建模、文件管理、写入和查询优化等方面。记得Hudi有两种表类型：COW和MOR。COW适合写少读多的场景，而MOR适合频繁写入的情况。需要提到如何根据业务需求选择合适的表类型。另外，主键设计很重要，必须确保唯一性，比如使用复合主键或UUID。在数据分区方面，用户可能需要合理设计分区策略，比如按时间分区，避免小文件问题。Hudi的Clustering和Compaction功能可以优化文件布局，提升查询性能，这部分需要详细说明。写入优化方面，提到批量写入、并行度调整、避免小批量写入。还有索引的选择，比如布隆过滤器和HBase索引的区别，适用场景是什么。查询优化可能需要结合引擎，比如Spark或Flink，利用Hudi的元数据表加速查询。时间旅行和增量查询也是Hudi的特色功能，应该作为最佳实践的一部分。编码规范方面，需要强调配置管理，比如统一管理表属性，使用HoodieWriteConfig。异常处理和监控日志，比如记录关键指标和失败重试机制。版本兼容性也很重要，确保各组件版本一致。另外，数据治理方面，Schema演进和元数据管理需要注意事项，比如使用Avro的Schema兼容性规则。最后，安全性和权限控制，比如集成Ranger或AWS IAM。需要参考用户提供的引用，但用户给的引用似乎不相关，可能之前的对话中有更多信息。不过用户这次的问题集中在Hudi的最佳实践，所以应集中整理这些点，确保结构清晰，分点说明，并给出代码示例，比如Clustering和Compaction的配置。</think>### Apache Hudi开发最佳实践与编码规范 #### 一、数据建模规范 1. **表类型选择** - **COW表（写时复制）**：适用于读多写少场景，通过重写文件实现ACID事务，查询性能更优[^1] - **MOR表（读时合并）**：适合高频更新场景，通过增量日志文件减少写入延迟 ```sql -- 建表示例 CREATE TABLE hudi_table USING hudi TBLPROPERTIES ( type = 'cow', -- 或 'mor' primaryKey = 'id', preCombineField = 'ts' ) ``` 2. **主键设计** - 必须定义具有业务意义的唯一主键（如订单号+时间戳的复合主键） - 建议添加`_hoodie_record_key`字段显式声明主键 ```java // Java写入配置示例 HoodieWriteConfig config = HoodieWriteConfig.newBuilder() .withPath("/hudi_data") .withSchema(schema) .withKeyGenerator(HoodieKeyGeneratorFactory.createKeyGenerator(props)) .build(); ``` #### 二、写入优化实践 1. **文件管理策略** - 通过`hoodie.parquet.max.file.size`控制文件大小（推荐256MB-1GB） - 启用自动压缩： ```properties hoodie.compact.inline=true hoodie.compact.inline.max.delta.commits=5 ``` 2. **索引选择原则** | 索引类型 | 适用场景 | 性能特点 | |----------------|------------------------------|-----------------------| | 布隆过滤器索引 | 高频更新场景 | 内存消耗低，查询效率高 | | HBase索引 | 精确匹配场景 | 额外维护成本 | | 全局索引 | 跨分区更新 | 强一致性保证 | 3. **批量写入优化** ```python # PySpark写入示例 hudi_options = { 'hoodie.datasource.write.recordkey.field': 'id', 'hoodie.datasource.write.precombine.field': 'ts', 'hoodie.upsert.shuffle.parallelism': 200, 'hoodie.insert.shuffle.parallelism': 200, 'hoodie.bulkinsert.shuffle.parallelism': 200 } df.write.format("hudi").options(**hudi_options).mode("append").save("/hudi_table") ``` #### 三、查询加速方案 1. **元数据表加速** 启用Hudi元数据表实现二级索引： ```properties hoodie.metadata.enable=true hoodie.metadata.index.column.stats.enable=true ``` 2. **时间旅行查询** ```sql SELECT * FROM hudi_table TIMESTAMP AS OF '2023-07-01 00:00:00' ``` #### 四、编码规范 1. **配置管理规范** - 统一管理表属性配置 - 使用环境变量注入敏感参数： ```java config.setValue(HoodieWriteConfig.TABLE_NAME, System.getenv("HUDI_TABLE_NAME")); ``` 2. **异常处理标准** ```java try { client.commit(instantTime, writeResult); } catch (HoodieCommitException e) { logger.error("Commit failed, initiating rollback", e); client.rollback(instantTime); throw new DataPipelineException("Hudi commit failure", e); } ``` #### 五、数据治理要求 1. **Schema演进规则** - 向后兼容修改（增加字段） - 向前兼容修改（设置默认值） ```avro { "type": "record", "name": "User", "fields": [ {"name": "id", "type": "string"}, {"name": "new_field", "type": ["null", "string"], "default": null} ] } ``` 2. **数据保留策略** ```properties hoodie.keep.min.commits=20 hoodie.keep.max.commits=30 hoodie.cleaner.commits.retained=5 ```