架构_Kylin-CSDN博客

原创 SeaTunnel与DataX比较

DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。它允许用户通过简单的配置实现数据的抽取，转换和加载（ETL）。SeaTunnel提供了多种连接器，能够轻松集成不同的数据源项目和目标，包括关系型数据库，NoSQL数据库，文件系统等。二.SeaTunnel。

2024-11-06 09:16:04 1234

原创使用SeaTunnel进行一键数据同步

SaeTunnel提供了多种连接器，能够轻松集成不同的数据源项目和目标，包括关系型数据库，NoSQL数据库，文件系统等。注意：使用jar包的版本要与数据库版本以及seatunnel版本相对应，此次使用SeaTunnel版本为2.3.8。使用模板自动创建Doris表，会根据上游数据类型和schema类型创建相应的建表语句，默认模板可以根据情况进行修改。都配置为较大的值，最后到达的数据可能会有较大的延迟(延迟的时间就是检查点间隔的时间)。在开启同步任务之前，针对目标端已有的数据选择不同的处理方案。

2024-11-06 08:59:12 4114 2

原创浅谈Zookeeper

Zookeeper是Apache软件基金会的一个软件项目，它是一个为分布式应用提供一致性服务的软件，分布式应用程序可以基于Zookeeper实现数据发布/订阅，负载均衡，命名服务，分布式协调/通知，集群管理，Master选举，分布式锁和分布式队列等功能。Zookeeper现在是一个独立的顶级项目，曾经是Hadoop的一个子项目。- Paxos算法是Leslie Lamport宗师提出的一种基于消息分布式一致性算法，使其获得2013年图灵奖。

2024-06-13 09:23:56 491 1

原创数据建模流程

多数事实表关注某一业务过程的结果，过程的选择非常重要，因为过程定义了特定的设计目标以及对粒度，维度，事实的定义。在维度类型中，有一种重要的维度称为退化为度，这种维度指的是会直接把一些简单的维度放在事实表中，退化维度是维度建模领域中的一个非常重要的概念，它对理解维度建模有着至关重要的概念，退化维度一般可在分析中用来做分组使用。以供同粒度从多个组织业务过程合并度量的事实表称为合并事实表，需要注意的是，来自多个业务过程的事实合并到事实表时，它们必须具有同等级的粒度。其优化的核心思路是更快的处理事务。

2024-05-07 10:02:03 1772

原创 SQL基础优化

map join:特别适合大小表join的情况，大小表join在map端直接完成join过程，没有reduce，效率。reducer做部分聚合，相同的key就会分布在不同的reducer中。要统计某一列的去重数时，如果数据量很大，count(distinct)就会非常慢，原因与order by类似，多表join时key相同：会将多个join合并为一个MR job来处理，两个join的条件不相同，就会拆成多。将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会。

2024-04-17 16:44:50 378

原创 VUE的概念

响应式数据绑定：数据发生改变，视图自动更新（开发者不再关注 dom 操作，进一步提高开发效率）。可组合视图组件：视图按照功能切分成基本单元（易维护，易重用，易测试）。

2024-04-17 14:17:37 372

原创 FlinkSql聚合查询

在一个Group By查询中，根据不同维度组合进行聚合。Grouping Sets 会把在单个Group By 逻辑种没有参与Group by 的那一列设置为Null值。更多情况下，我们可以通过GROUP BY 子句来指定分组的键（key），从而对数据按照某个字段做一个统一的分组统计。SQL中一般说的聚合我们都很熟悉，主要是通过一些内置的聚合函数来实现的，他们的特点是对多条输入进行计算，得到一个唯一的值，属于“多对一的转换”比如SUM（），MAX（），AVG（），COUNT（）；

2024-04-17 10:47:36 837

原创 FlinkCDC

FlinkCDC是Apache Flink的一个模块，用于实时捕获和处理数据库变更数据。它可以监控关系型数据库中的数据变更，并将这些变更数据以流的形式输出到Flink的数据流中进行实时处理和分析。总结一下，FlinkCDC是一个用于实时捕获和处理数据库变更数据的模块，它能够以低延迟、Exactly-once语义的方式将数据库变更数据输出到Flink的数据流中进行实时处理和分析。

2024-04-16 20:42:16 379

原创数据仓库搭建流程详解

5. 数据集成与建模：将不同来源的数据进行集成，并建立数据仓库的逻辑模型，包括确定基本方法、基于主题视图、识别关系、分解多对多的关系、用范式理论检验、由用户审核和转化为数据仓库数据模型。3. 数据清洗与转换：对采集到的数据进行清洗和转换，以确保数据的质量和一致性，这一步需要考虑到各种转换方法，并满足时间要求。4. 数据存储与管理：将清洗和转换后的数据存储在数据仓库中，并进行数据库管理和元数据管理，元数据是描述数据的数据。6. 数据质量与验证：对数据仓库中的数据进行质量验证，确保数据的准确性和完整性。

2024-04-16 17:09:50 1277

原创离线数仓分层模型

数据从原始数据层中抽取出来，并进行清洗转换，规范化，清洗转换过程中用于解决数据质量问题，例如取出重复值，处理缺失数据，标准化格式，转换过程用于将数据转化为符合数据仓库模型结构。存储最原始的，未经处理的数据，原始数据可以来自各种数据源，例如数据库，日志文件，在原始数据层，数据以最原始的形式进行存储，通常不进行任何处理，以确保数据的完整性和可追溯性。数据查询的最上层，它为业务用户提供了查询和报告的接口，在这一层，用户可以执行复杂的数据查询，多维分析和报表生成。2.DWD：数据明细层：清洗过滤后的数据。

2024-04-16 14:22:58 611

原创数据质量监控开发中遇到的问题

我们公司很注重数据的正确性，安全性，刚开始的时候，为了保证数据质量，之前的做法为在相关任务中加上自己定义的逻辑来检查数据是否正确。但是随着业务的快速迭代，数据量越来越大，这种纯人工的方式耗时耗力。- 纯人工开发监控逻辑效率不高，需要额外花费很多人力，不同业务在多个集群中都有数据质量监控，没办法统一管理。- 支持可视化界面的配置，提供了很多数据质量的额规则，简化开发提高效率。- 支持多数据源，能够同时对不同类型的数据库的数据配置监控任务，覆盖面广。- 权限管理功能很完善，能够保证数据的私密性。

2024-04-16 10:26:31 449

原创浅谈数据中台

#数据中台这个东i下，目前业界还没有一个完整的标准定义，在我而言，数据中台首先至少是一个分布式的数据仓库，同时包含相对应实施的方法和方案，介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。除了编程技术，应用开发技术与传统的IT应用技术具有部分的重合，数据中台还有自己的技术体系，比如大数据的开发技术，数据仓库建模技术，数据分析体系，数据应用技术体系等.数据中台是实现企业全面数据化的一个解决方案，是一套支撑企业全面数据化的架构，会成为企业开展全面数据化的基础设施。3.中台的价值是啥？

2024-04-15 16:24:36 397 1

qq_67725855的博客

原创 SeaTunnel与DataX比较

原创使用SeaTunnel进行一键数据同步

原创浅谈Zookeeper

原创数据建模流程

原创 SQL基础优化

原创 VUE的概念

原创 FlinkSql聚合查询

原创 FlinkCDC

原创数据仓库搭建流程详解

原创离线数仓分层模型

原创数据质量监控开发中遇到的问题

原创浅谈数据中台

原创 MapReduce运行流程

原创 Flink算子

原创 Flink端到端一致性&水位线

原创 ClickHouse 项目中常见的表引擎

原创 ClickHouse为什么快

原创 Spark on Yarn 运行流程

空空如也

Doris,DataX,字段值过大

关于#人工智能#的问题，请各位专家解答！