flink sql 知其所以然(一)| source\sink 原理(转) 在 flink sql 中,source 有两种表,一种是数据源表,一种是数据维表。数据源表就是有源源不断的数据的表。比如 mq。数据维表就是用来给某些数据扩充维度使用的。比如 redis,mysql,一般都是做扩容维度的维表 join 使用。本节主要介绍数据源表,数据维表的整个流程和数据源表几乎一样。下文中的 source 默认都为数据源表。首先在介绍 sql 之前,我们先来看看 datastream 中定义一个 source 需要的最基本的内容。
Flink on K8s 原理剖析及实践(转) 本文依据flink官方社区文章整理:https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTgKubernetes 是 Google 开源的容器集群管理系统,其提供应用部署、维护、扩展机制等功能,利用 Kubernetes 能方便地管理跨机器运行容器化的应用。Kubernetes 和 Yarn 相比,相当于下一代的资源管理系统,但是它的能力远远不止这些。
2023MySQL+MyBatis知识点整理 一系列设计数据库模型的规范。第一范式:原子性约束,不可再分解第二范式:唯一性约束第三范式:字段没有冗余性能优化策略,通过在表中增加冗余数据提高数据库读取性能。一系列操作要不全部成功,要不全部失败(只要其中一个环节失败就会触发回滚恢复到执行前状态)ACID(原子性、一致性、隔离性、持久性)脏读:一个事务读取到了其他事务还未提交的数据不可重复读:相同SQL查到同一条数据值不一样幻读:条数不一样。
进程、线程和协程有什么区别 进程就是应用程序的启动实例。比如我们运行一个游戏,打开一个软件,就是开启了一个进程。进程拥有代码和打开的文件资源、数据资源、独立的内存空间。有人会认为,要提升CPU的利用率,可以开多个进程,但是开多个进程的话,进程间通讯是个比较麻烦的事情(进程之间地址空间是独立的,需要通过其他方式,例如:管道来解决)相反,线程之间是可以实现数据共享的,因为线程之间使用的是同一个地址空间。线程又叫做轻量级进程,是CPU调度的最小单位,线程从属于进程,是程序的实际执行者。一个进程至少包含一个主线程,也可以有更多的子线程。多个线
java springboot使用ssh连接数据库 然后再创建数据库连接,连接本地3307端口,连接请求就会通过ssh服务器被转发到远程3306端口。原理:项目启动时先创建ssh连接,监听本地3307端口。
Linux shell常用命令总结2022 一般看信息都用查看man文档,而help只是一个简单的描述,方便,但man文档中都包含了。:删除目录(注意rmdir只能删除空的目录),-p 表示连同上层空目录级联删除。:显示目前所在的目录 -P 显示出确实的路径,而非使用链接(link)路径。:为某一个文件在另一个目录建立一个同步的链接,不会重复占用磁盘空间。:代表account这个用户的家目录(account是账号名称):系统在今天的20:25关机,如果当前时间大于20:25隔天关机。:再过30分钟系统会重新启动,并显示后面的讯息给所有在线的使用者。
flink故障恢复的流程(从检查点恢复状态) 找到最近一次保存的检查点,从中读出每个算子任务状态的快照,分别填充到对应的状态中。这样,Flink 内部所有任务的状态,就恢复到了保存检查点的那一时刻,也就是刚好处理完第三个数据的时候,如图 10-5 所示。从检查点恢复状态后还有一个问题:如果直接继续处理数据,那么保存检查点之后、到发生故障这段时间内的数据,也就是第 4、5 个数据(“flink”“hello”)就相当于丢掉了;之后继续运行,又正常处理了一个数据“flink”,在处理第五个数据“hello”时发生了故障,如图 10-3所示。
jvm调优思路 jhat(JVM Heap Analysis Tool)命令是与 jmap 搭配使用,用来分析 jmap 生成的 dump,jhat 内置了一个微型的 HTTP/HTML 服务器,生成 dump 的分析结果后,可以在浏览器中查看。线程快照是当前 java 虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等。JDK监控和故障处理命令有。
尚硅谷大数据技术之 Flink-CDC(转) CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC 主要分为基于查询和基于 Binlog 两种方式,我们主要了解一下这两种之间的区别:Flink 社区开发了 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https:
Flink实时数仓(尚硅谷)- 数据采集 普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapRedu