清清清清风-CSDN博客

原创【Flink】部署模式-会话模式/单作业模式/应用模式/Yarn模式/独立模式/K8s模式

在一些应用场景中，对于集群资源分配和占用的方式，可能会有特定的需求。Flink为各种场景提供了不同的部署模式，主要有以下三种模式：会话模式（Session Mode）单作业模式（Per-Job Mode）应用模式（Application Mode）

2023-03-02 22:41:34 628

原创【数据结构】LSM树（log-structed-merge-tree）原理及应用

LSM 树的思想是使用顺序写代替随机写来提高写性能，与此同时会略微降低读性能。HBase、 Cassandra、 LevelDB、 RocksDB 以及 ClickHouse MergeTree 等流行的 NoSQL 数据库均采用 LSM 存储结构。

2023-03-02 16:52:14 997

原创布隆过滤器（Bloom Filter）详解，以及Java代码实现

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难

2023-03-02 15:14:18 2863

原创【数据集成】数据集成的发展和未来

构建一个中心化的数据仓库本身是一个艰巨的任务，每个数据源都需要单独的程序和工具来摄取、清洗和导入数据。数据仓库的数据一般来源于多个分散的、异构的数据源，通过数据集成技术将数据整合在一起，消除数据孤岛，便于后续的分析。近年来，面向分析的数据系统发展迅速，各种新型的 OLAP 系统开始显露锋芒，数据湖和 Lakehouse 的概念也变得炙手可热。然而诸如 Canal 等专注于纯增量数据为用户想要集成的数据从来不是单独的历史数据部分，或是单独的增量数据部分，而是历史数据和增量数据一体化地集成到数据仓库。

2022-10-21 10:58:25 965 1