自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 快捷工具(提升工作效率)

提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-07-14 10:18:19 254

原创 flink cdc mysql整理与总结

1、FlinkCDC 提供了对 Debezium 连接器的封装和集成,简化了配置和使用的过程,并提供了更高级的 API 和功能,例如数据格式转换、事件时间处理等。Flink CDC 使用 Debezium 连接器作为底层的实现,将其与 Flink 的数据处理能力结合起来。通过配置和使用 Flink CDC,您可以轻松地将数据库中的变化数据流转化为 Flink 的 DataStream 或 Table,并进行实时的数据处理、转换和分析。2、Flink的DataStream和SQL比较成熟和易用。

2024-05-26 17:28:25 1185

翻译 flink要点

在 Flink 的 Aligned checkpoints 机制中,当触发检查点操作时,所有并行任务都会暂停当前的处理,并等待所有上游数据的检查点栅栏(Checkpoint Barrier)到达。相对于传统的 Aligned checkpoints,Unaligned checkpoints 提供了更高的效率和更低的处理延迟。在 Flink 中,Timer(定时器)是处理时间相关逻辑的核心机制之一,尤其适用于需要在特定时间点执行操作的场景。:在基于时间的窗口操作中,Timer 用于触发窗口的计算与关闭。

2024-05-21 17:33:25 26

原创 flink优化案例

CheckPoint说明:每个需要checkpoint的应用在启动时,Flink的JobManager为其创建一个CheckpointCoordinator,CheckpointCoordinator全权负责本应用的快照制作。CheckpointCoordinator周期性的向该流应用的所有source算子发送barrier;

2024-05-13 17:30:41 971 1

原创 flink sql 优化

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外,例如写数据库),增加资源只会让job性能越来越差或报错(亲身经历job性能差,特别痛苦,一直加资源性能还是差或运行报错)。需要不断找根源问题,多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是很差(资源给的很多性能还是不理想)(略增加一些资源)可以将一个job拆分两个job(将占用比较多的业务数据(50%更好)在新的job单独处理)

2024-05-05 20:14:13 2104 6

原创 使用工具速记

2).数字越小显示的越多(影响范围:浏览器的上边框宽窄,窗口的下面任务栏宽窄等)2).其他软件信息导入导出略。3).idea 不支持将之前打开项目记录导出。1).窗口单击右键->显示设置->缩放与布局。1).浏览器书签栏导出导入,网上很多,略。4).临时查询脚本不能导出(另存文件)3).导出的是sycs文件。2).选择要导的账号信息。

2024-04-26 11:44:43 362

原创 k8s安装流程

提示:安装之前参考很多好文章,写此文章作为永久免费开放,同时增加自己安装k8s记忆和理解节点名称节点IPmasterslave1slave2其他软件信息软件名版本信息说明17 Pro虚拟化软件(在win11平台安装)Windterm2.6.0linux连接工具(类似于xshell,但比它更强大,不用设置字体色彩更丰富)linuxcentos7必须是centos7或以上版本,否则低centos版本k8s不支持k8sv1.16.0容器(如docker)编排框架。

2024-04-14 20:08:22 2074

原创 k8s安装遇到问题合集

或有类似的问题,大部分都是kube-flannel.yml的问题,这里建议使用我的文件上传到主节点即可。根据上图可以很明显看到,dashboard的数据包直接被REJECT(拒绝)了,找到原因就好办了,设置成允许(ACCEPT)就行。dashboard的镜像拉取成功,容器创建成功,但容器在启动的时候启动失败,状态为CrashLoopBackOff。4)把创建的dashboard pod删掉并重启下docker,再次创建dashboard,创建成功。从节点解压完成后在主节点查看所有节点状态都是ready。

2024-04-13 21:44:03 690

原创 jar冲突与解决方式

提示:主要排查java冲突或解决jar包冲突。语言:java/scala。

2024-04-12 20:21:58 2048

原创 linux(centos7)安装

准备部分:软件镜像地址(阿里云):https://developer.aliyun.com/mirror/虚拟化镜像软件:wmware或VirtualBox连接工具:Xshell或windTerm本地电脑:windos11系统linux版本:centos71).wind本地电脑安装linux还是很简单的,没有什么难点2).上述安装linux7 是为安装docker和k8s做准备,因为linux6或低版本不支持k8s等软件。

2024-03-31 17:31:23 686

原创 关于catalog整理

flink与其他数据库(关系型或非关系型)的catalog区别。fink的Catalog更注重提供统一的元数据访问接口和灵活的元数据管理方式。其他数据的catalog则侧重于实现元数据的持久化和管理。在实际应用中,用户可以根据具体需求选择适合的Catalog类型来管理和访问元数据或在自己内部快速定位数据位置等。flink更像(人)查询使用其他数据库的catalog(毕竟flink是实时计算组件,不是数据库)。其他数据的catalog更像(书籍目录)管理自己已存的数据或位置。

2024-03-23 22:46:51 526

原创 Flink 内存梳理与遇到的问题修复

flink

2024-03-23 16:05:05 1041

原创 flink sql job时区设置

参考文档:https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/dev/table/config/#table-local-time-zone。

2024-03-12 18:48:09 740 2

原创 flink自定义connetor和自定义sink动态多表写数据

【代码】flink自定义connetor和自定义sink动态多表写数据。

2024-02-29 11:27:51 433

原创 国家对应国家代码整理

国家编码对应关系整理

2024-02-28 16:13:14 638

原创 hbase查询耗时过高怎么排查?

HBase 查询耗时高可能有多种原因,需要细心排查,下面给些方向。还有使用phoenix做二级索引。

2024-02-28 15:43:09 437

原创 flink状态后端与Checkpoint联系

主要特性:持久化存储:RocksDBStateBackend 将 Flink 任务的状态持久化到 RocksDB 中,这使得状态能够在任务失败或重新启动时得以恢复。高性能:RocksDB 是一个高性能的键值存储引擎,它在处理大量数据时表现出色。RocksDBStateBackend 利用 RocksDB 的性能优势,提供快速的状态读写操作。本地存储: RocksDBStateBackend 可以将状态存储在本地文件系统上,因此它不依赖外部的分布式存储系统。

2024-02-27 16:01:59 1203

原创 阿里云flink sql报错 List of column aliases must have same degree as table; table has 1 column

因为我这边使用flink的Row类做存放数据并返回给调用方collect(row),所以注解使用@DataTypeHint("ROW...等做指定输出类型。添加注解@DataTypeHint指定输入和输出类型(如下代码片段)使用阿里云 flink 全托管写UDTF时提交使用函数报错如下。代码提交后,阿里云 flink sql语法检查正常。

2024-02-23 11:14:44 621

翻译 flink 作业调度

提示:这篇文档简要描述了 Flink 怎样调度作业, 怎样在 JobManager 里描述和追踪作业状态(官网整理学习)

2024-02-05 19:27:44 31

翻译 Flink Task 生命周期

因为 task 是算子并行实例的执行实体,所以它的生命周期跟算子的生命周期紧密联系在一起。因此,在深入介绍 StreamTask 生命周期之前,先简要介绍一下代表算子生命周期的基本方法。这些方法按调用的先后顺序如下所示。考虑到算子可能是用户自定义函数(UDF),因此我们在每个算子下也展示(以缩进的方式)了 UDF 生命周期中调用的各个方法。

2024-02-05 19:11:26 47

原创 flink 组件说明

对于流处理程序,Flink Job 的 State Backend 决定了其 state 是如何存储在每个 TaskManager 上的( TaskManager 的 Java 堆栈或嵌入式 RocksDB),以及它在 checkpoint 时的写入位置( Flink JobManager 的 Java 堆或者 Filesystem)。它是基本的工作单元,由 Flink 的 runtime 来执行。Flink 应用程序集群是一种专用的Flink 集群,仅从一个Flink 应用程序执行Flink 作业。

2024-02-05 18:09:10 1007

原创 pandas是什么

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-02-01 11:31:16 359 1

k8s安装遇到问题合集

k8s安装遇到问题合集

2024-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除