![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Apache
文章平均质量分 77
wank1259162
一个爱折腾的程序员
展开
-
Flink Icerberg 离线数仓-项目准备(三)
本节主要是创建模拟数据,包括事实表和维度表,并通过Flink映射为Icerberg数据表,构成DWD层数据。测试数据目录 baswewebsite.log 数据格式member.log 数据格式memberRegtype.log 数据格式pcenter_mem_paymoney.log 数据格式pcenterMemViplevel.log 数据格式项目POM文件文件目录结构1. 拷贝测试数据目录下的文件到/tmp/warehouse原创 2022-07-04 15:42:54 · 737 阅读 · 1 评论 -
Flink Icerberg 离线输仓-维度建模过程(二)
维度建模一般按照以下四个步骤: 选择业务过程→声明粒度→确认维度→确认事实选择业务过程在业务系统中,挑选我们感兴趣的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一张事实表。声明粒度数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。 声明粒度意味着精确定义事实表中的一行数据表示什么,应该尽可能选择最小粒度,以此来应各种各样的需求。典型的粒度声明如下:订单事实表中一行数据表示的是一个订单中的一个商品项; 支付事实表中一行数据表示的是一个支付记录。确定维度维度的主要作用是描述业务原创 2022-07-04 15:07:04 · 357 阅读 · 0 评论 -
Flink Icerberg 离线数仓-维度建模(一)
Apache Iceberg是一种用于大型分析数据集的开放表格,Iceberge向Trino和Spark添加了使用高性能格式的表,就像Sql表一样。Iceberg为了避免出现不变要的一些意外,表结构和组织并不会实际删除,用户也不需要特意了解分区便可进行快速查询。(1)Iceberg的表支持快速添加、删除、更新或重命名操作(2)将分区列进行隐藏,避免用户错误的使用分区和进行极慢的查询。(3)分区列也会随着表数据量或查询模式的变化而自动更新。(4)表可以根据时间进行表快照,方便用户根据时间进行检查更改。(5)提原创 2022-07-04 13:46:57 · 644 阅读 · 0 评论 -
Flink 写入Apache Arrow
数据格式:arrow 定义了一种在内存中表示tabular data的格式。这种格式特别为数据分析型操作(analytical operation)进行了优化。比如说列式格式(columnar format),能充分利用现代cpu的优势,进行向量化计算(vectorization)。不仅如此,Arrow还定义了IPC格式,序列化内存中的数据,进行网络传输,或者把数据以文件的方式持久化。 开发库:arrow定义的格式是与语言无关的,所以任何语言都能实现Arrow定义的格式。arrow项目为几乎所有的主流编程原创 2022-06-28 20:34:50 · 797 阅读 · 1 评论 -
Flink 通过批量和CDC两种方式读取MySQL数据入Iceberg
Flink JDBC 连接器允许使用 JDBC 驱动程序从任何关系数据库读取数据并将数据写入其中。本文档介绍如何设置 JDBC 连接器以针对关系数据库运行 SQL 查询。如果在 DDL 上定义了主键,则 JDBC sink 以 upsert 模式与外部系统交换 UPDATE/DELETE 消息,否则,它以 append 模式运行,不支持消费 UPDATE/DELETE 消息。测试代码代码说明1、hadoop catalog创建创建脚本,warehouse的路径,它会自动创建HDFS路原创 2022-06-28 09:30:48 · 3099 阅读 · 0 评论 -
ZooKeeper 的基本概念
在ZooKeeper 中没有沿用传统的Master/Slave 概念, 而是引入了Leader 、Followe和observer 三个角色。ZooKeeper 集群中的所有机器通过一个Leader 选举过程来选定一台被称为“ Leader” 的机器, Leader 服务器为客户端提供读和写服务。除Leader 外, 其他机器包括Follower 和Observer 。Follower 和Observer 都能够提供读服务, 唯一的区别在于, Observer 机器不参与Leader 选举过程, 也不参与写原创 2022-06-25 09:38:19 · 312 阅读 · 0 评论 -
Flink 读写MySQL数据(DataStream和Table API)
Flink提供了基于JDBC的方式,可以将读取到的数据写入到MySQL中;本文通过两种方式将数据下入到MySQL数据库,其他的基于JDBC的数据库类似,另外,Table API方式的Catalog指定为Hive Catalog方式,持久化DDL操作。Maven依赖,包含了Hive Catalog的相关依赖 DataStream方式读写MySQL数据Table API的方式读写MySQL,其中Flink的Catalog使用Hive Catalog的方式MySQL中的数据..........原创 2022-06-24 11:24:55 · 8504 阅读 · 4 评论 -
Apache Ranger KMS 部署文档
创建库create database rangerkms;alter database rangerkms character set latin1; create user 'rangerkms'@'%' identified by '1q2w3eROOT!';GRANT ALL PRIVILEGES ON rangerkms.* TO 'rangerkms'@'%' IDENTIFIED BY '1q2w3eROOT!';flush privileges;解压,修改配置文件tar原创 2022-01-11 17:59:13 · 1363 阅读 · 4 评论 -
Apache Hadoop KMS 部署
名词解释DEK: data encryption keyEDEKs: encrypted data encryption keysEEK: encrypted encryption keys介绍KMS是hadoop自带的组件,只要安装了hadoop,KMS相关的东西就都有了,只要简单配置 并启动就可以使用了。KMS performs three basic responsibilities: Providing access to stored encryption zone原创 2022-01-11 17:50:40 · 1338 阅读 · 8 评论