大数据
文章平均质量分 93
这个昵称好不好
这个作者很懒,什么都没留下…
展开
-
Trino结合Ranger 2.3控制访问权限
Trino 结合 Ranger2.3 控制用户访问权限原创 2022-10-25 18:39:08 · 3501 阅读 · 13 评论 -
Flink 1.12.0 java.lang.NullPointerException: buffer at org.apache.flink.core.memory.MemorySegment
Flink 1.12.0 java.lang.NullPointerException: buffer at org.apache.flink.core.memory.MemorySegment.<init>Flink 1.12.0 版本,当你使用Temporal Table Join ORC格式的Hive维度表时出现如下异常java.lang.NullPointerException: buffer at org.apache.flink.core.memory.MemorySegmen原创 2020-12-23 11:04:54 · 509 阅读 · 2 评论 -
kafka 通过消费者获取__consumer_offsets topic的元数据内容
kafka 通过消费者获取__consumer_offsets topic的元数据内容工作中遇到一个问题需要获取kafka的元数据信息,诸如topic创建信息,消费者消费topic的信息等。要获取kafka的元数据信息,首先想到找zookeeper,利用zookeeper的watcher机制去监听kafka的元数据节点的创建,进而拿到对应信息。但由于kafka新版本存在两种消费者元数据保存机制...原创 2018-08-11 09:33:57 · 12098 阅读 · 7 评论 -
Apache-Atlas 类型系统详解
Atlas Type SystemAtlas 类型系统,Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 “类型” 的定义组成。被称为 “实体” 的 “类型” 实例表示被管理的实际元数据对象。类型系统是一个组件,允许用户定义和管理类型和实体。由 Atlas 管理的所有元数据对象(例如Hive表)都使用类型进行建模,并表示为实体。如果要在Atlas中存储新类型的元数据,需要...原创 2018-10-29 10:28:54 · 8914 阅读 · 6 评论 -
Flink VS Spark Streaming 处理模型对比
Flink VS Spark Streaming数据处理模式Apache Flink是一个用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据引擎,为数据流上的分布式计算提供数据分发,通信和容错,可对有限数据流和无限数据流进行有状态计算。Flink在流引擎之上构建批处理,覆盖本机迭代支持,托管内存和程序优化。Spark Streaming是Spark的一大应用方向,它基于Spa...原创 2019-04-28 17:00:57 · 1488 阅读 · 0 评论 -
基于hive-testbench实现TPC-DS测试
基于hive-testbench实现TPC-DS测试TPC-DS测试概述TPC-DS测试基准是TPC组织推出的用于替代TPC-H的下一代决策支持系统测试基准。因此在讨论TPC-DS之前,先介绍一下TPC-H。1. TPC-HTPC-H是一款面向商品零售业的决策支持系统测试基准,它定义了8张表,22个查询,遵循SQL92。TPC-H的数据模型如图4所示。TPC-H基准的数据库模式遵循第三范式...原创 2019-05-20 09:01:07 · 4579 阅读 · 0 评论 -
TPC-DS 测试Impala On Parquet和Impala On Kudu
文章目录导入Kudu数据TPC-DS测试SQL准备批量执行脚本生成测试结果导入Kudu数据假设已经使用hive-testbench在Hive中生成TPC-DS数据集了。参考上一篇文章基于hive-testbench实现TPC-DS测试接下来我们还需要生成Kudu的表和数据,先准备SQL:drop database if exists ${VAR:DB} cascade;create d...原创 2019-05-21 10:01:51 · 1848 阅读 · 0 评论