尚硅谷大数据技术之 Flink-CDC(转) CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式,我们主要了解一下这两种之间的区别:Flink 社区开发了 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https:
Flink实时数仓(尚硅谷)- 数据采集 普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapRedu
Flink物理分区(Physical Partitioning)(出自b站尚硅谷) 文章目录前言1. 随机分区(shuffle)2. 轮询分区(Round-Robin)3. 重缩放分区(rescale)4. 广播(broadcast)5. 全局分区(global)6. 自定义分区(Custom)前言顾名思义,“分区”(partitioning)操作就是要将数据进行重新分布,传递到不同的流分区去进行下一步处理。其实我们对分区操作并不陌生,前面介绍聚合算子时,已经提到了 keyBy,它就是一种按照键的哈希值来进行重新分区的操作。只不过这种分区操作只能保证把数据按key“分开”,至于分得均不
zookeeper(尚硅谷b站课程笔记2021) 文章目录第 1 章 Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第 2 章 Zookeeper 本地安装第 3 章 Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制(面试重点)3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型(持久/短暂/有序号/无序号)3.2.4 监听器原理1)节点的值变化监听2)节点的子节点变化监听(路径变化)3.
macOS解压时“错误22 - 无效的参数”(转) 如果Zip文件是在Windows系统创建而且编码存在问题时,用MacBook的macOS自带的解压程序“归档使用工具”是解压不了的,这里提供两种方法。软件The Unarchiver解压有一种方法是改后缀名为rar后用The Unarchiver解压,但这种方法不一定能成功。通过终端输入命令另外一种方法是打开电脑终端,用macOS自带的输入命令ditto解压:ditto -x -k /要解压的文件.zip /要保存的路径注意,文件一定要是带路径的,最好的方法是输入ditto -x -k后拖拽文
Flink内核源码解析(出自B站尚硅谷) 文章目录任务提交流程本套教程针对Flink 1.12.0版本的核心模块进行源码级讲解,从任务提交流程、通讯过程、Task调度、内存模型四大方面入手,庖丁解牛逐行分析源码,手术刀级别剖析Flink内核架构!任务提交流程实例以yarn-per-job为例。flink提交作业是通过flink run进行提交的,可以从提交脚本中看到启动类即程序的入口是:org.apache.flink.client.cli.CliFrontend查看其中的main方法,执行的逻辑简单总结如下:获取flink的c
Flink 非对齐 Checkpoint 执行流程详解(转) 文章目录当前 Checkpoint 机制简述Checkpoint 与反压的耦合Unaligned Checkpoint总结作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标,成功且耗时较短的 Checkpoint 表明作业运行状况良好,没有异常或反压。然而,由于 Checkpoint 与反压的耦合,反压反过来也会作用于
1w 字详解 Flink 双流 join 的 3 种解决及优化方案(转) 文章目录1 引子1.1 数据库SQL中的JOIN1.2 离线场景下的JOIN2 实时场景下的JOIN2.1 方案思路3 Flink的双流JOIN3.1 内部运行机制3.2 JOIN实现机制4 基于Window Join的双流JOIN实现机制4.1 join算子4.2 coGroup算子5 基于Interval Join的双流JOIN实现机制6 基于Connect的双流JOIN实现机制6.1 Connect算子原理6.2 技术实现7 双流JOIN的优化与总结如何保证Flink双流Join准确性和及时性、
万字详解 Hive 查询的 18 种方式(转) 文章目录前言准备1、SELECT查询语句2、WHERE 条件语句3、GROUP BY 语句4、HAVING语句5、INNER JOIN语句6、 LEFT OUTER JOIN语句7、RIGHT OUTER JOIN语句8、FULL OUTER JOIN语句9、 LEFT SEMI JOIN语句10、笛卡尔积 JOIN 语句11、map-side JOIN语句12、多表JOIN语句13、ORDER BY 和 SORT BY 语句14、 DISTRIBUTE BY 和 SORT BY语句15、CLUSTER B
Hive 核心知识点灵魂 16 问(转) 文章目录1. 请谈一下 Hive 的特点2. Hive 底层与数据库交互原理?3. Hive 的 HSQL 转换为 MapReduce 的过程?4. Hive 的两张表关联,使用 MapReduce 怎么实现?5. 请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表什么意思?6. 写出 hive 中 split、coalesce 及 collect_list 函数的用法(可举例)?7. Hive 有哪些方式保存元数据,各有哪些特点?8. 内部表和外
1w 字详述 Flink CDC 打通数据实时入湖(转) 文章目录01 Flink CDC介绍02 Apache Iceberg介绍03Flink CDC打通数据实时导入Iceberg实践3.1 数据入湖环境准备3.2 数据入湖速度测试3.3 数据入湖任务运维3.4 数据入湖问题讨论04未来规划4.1 整合Iceberg到实时计算平台4.2 准实时数仓探索在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01 Fli