- 博客(33)
- 收藏
- 关注
原创 ES 索引或索引模板
当需要为同一类索引应用相同的配置、映射、别名时,如果每次创建索引都逐一配置会比较麻烦。索引模板的出现正是为了简化这种操作,使用索引模板你可以方便地为某一类索引自动配置某些共同的参数。索引模式(如 user_data_*,会生成例如:user_data_2024_08,user_data_2024_09索引。
2024-09-16 22:56:01 609
原创 java基础(小技巧)
文章目录一、日志输出二、字符串拼接三、日期比较四、常用注解五、Lombok的原理提示:以下是本篇文章正文内容,下面案例可供参考一、日志输出之前使用的方式。在要使用的类里面定义日志类:private static Logger logger = LoggerFactory.getLogger(“xxx”);现在使用方式:### pom.xml配置文件引入依赖 <dependency> <groupId>org.projectlombok&l
2024-09-16 18:11:50 1344
转载 Flink RocksDB 状态后端参数调优
Flink 作业中的每一个注册的状态都对应一个列族(column family),即包含自己独立的 memtable 和 sstable 集合。之前笔者已经详细讲解过 RocksDB 的 compaction 策略,并且提到了读放大、写放大和空间放大的概念,对 RocksDB 的调优本质上就是在这三个因子之间取得平衡。而在 Flink 作业这种注重实时性的场合,则要重点考虑读放大和写放大。block cache 则扮演读缓存的角色,采用 LRU 算法存储最近使用的 block,对读性能有较大的影响。
2024-09-03 00:39:55 151
原创 kafka常用命令汇总
它用于指定一个或多个 Kafka broker 的地址,通常用于启动消费者、生产者以及其他不需要直接与 ZooKeeper 交互的命令。在使用 Kafka 命令行工具时,–zookeeper 和 --bootstrap-server 参数用于指定不同的连接信息,具体取决于你使用的命令以及 Kafka 版本。说明:可以看到哪个topic有哪些消费组消费,消费的偏移量位置,还可以知道程序消费到哪个便宜量位置处。表示最新的偏移量(写入kafka各个分区最后一条数据的偏移量),或。最早的(各个分区)偏移量值。
2024-08-26 00:13:33 693
原创 flink周边使用技巧与汇总
如果只需要将数据发送到 Sink 而不需要容错机制,可以选择使用addSink。如果需要 Sink 支持状态管理和容错,则应该使用sinkTo。
2024-08-22 08:31:00 883
原创 flink读写案例合集
提示:这里主要总结在工作中使用到的和遇到到的问题:Java flink版本1.15+} }} }} }} }} }} }import org} }} }} }} }} }@Override在低版本的flink-connector-kafka中,不支持KafkaSerializationSchema。
2024-08-21 00:57:03 576
原创 ConcurrentModificationException问题解决
举例:将相同的key和修改完成的value再put到mapvalue中是可以的(前提是key相同时可以,如果key不同,则相当于mapstate新增数据会报错)这是最安全的方法之一,因为它提供了 remove() 方法来移除当前元素。mapvalue也是上面类似的操作。通过遍历使用 iterator.remove();总共情况在Java hashmap和flink mapstate操作不当都会报这个错。如果想对mapvalue 在循环遍历时修改value值是可以的。中修改集合(移除已有的或新增)。
2024-08-20 08:50:37 400
原创 windows本地kafka和zookeeper单机版
总结:上面总共开启了3个cmd。zookeeper配置环境变量,在cmd中可以不指定路径,直接执行。kafka没有配置环境变量,要有路径执行。在config目录下复制一份zoo_sample.cfg文件到同级目录,然后更改名称为zoo.cfg。server.properties配置完后,需要在kafka_2.12-3.5.1目录下。2).cmd启动zookeeper客户端(可以不用启动,截图略)1).cmd启动zookeeper服务端运行。1).新建zookeeper系统变量。2).添加配置path。
2024-08-20 00:54:42 1012
原创 flink DataStream Operator算子操作举例
上面介绍了 DataStream 的常用算子,其实上面也有一些算子也是同样适合于 DataSet 的,比如 Map、FlatMap、Filter 等(相同的就不再重复了);也有一些算子是 DataSet API 独有的,比如 DataStream 中分区使用的是 KeyBy,但是 DataSet 中使用的是 GroupBy。即第一个元素和第二个元素处理得到一个新的元素,新的元素再和第三个元素做处理…以上示例是在 5 秒的窗口中连接两个流,其中第一个流的第一个属性的连接条件等于另一个流的第二个属性。
2024-08-12 00:33:21 645
原创 快捷工具(提升工作效率)
提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-07-14 10:18:19 364
原创 flink cdc mysql整理与总结
1、FlinkCDC 提供了对 Debezium 连接器的封装和集成,简化了配置和使用的过程,并提供了更高级的 API 和功能,例如数据格式转换、事件时间处理等。Flink CDC 使用 Debezium 连接器作为底层的实现,将其与 Flink 的数据处理能力结合起来。通过配置和使用 Flink CDC,您可以轻松地将数据库中的变化数据流转化为 Flink 的 DataStream 或 Table,并进行实时的数据处理、转换和分析。2、Flink的DataStream和SQL比较成熟和易用。
2024-05-26 17:28:25 1440
翻译 flink要点
在 Flink 的 Aligned checkpoints 机制中,当触发检查点操作时,所有并行任务都会暂停当前的处理,并等待所有上游数据的检查点栅栏(Checkpoint Barrier)到达。相对于传统的 Aligned checkpoints,Unaligned checkpoints 提供了更高的效率和更低的处理延迟。在 Flink 中,Timer(定时器)是处理时间相关逻辑的核心机制之一,尤其适用于需要在特定时间点执行操作的场景。:在基于时间的窗口操作中,Timer 用于触发窗口的计算与关闭。
2024-05-21 17:33:25 49
原创 flink优化案例
CheckPoint说明:每个需要checkpoint的应用在启动时,Flink的JobManager为其创建一个CheckpointCoordinator,CheckpointCoordinator全权负责本应用的快照制作。CheckpointCoordinator周期性的向该流应用的所有source算子发送barrier;
2024-05-13 17:30:41 1218 1
原创 flink sql 优化
不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外,例如写数据库),增加资源只会让job性能越来越差或报错(亲身经历job性能差,特别痛苦,一直加资源性能还是差或运行报错)。需要不断找根源问题,多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是很差(资源给的很多性能还是不理想)(略增加一些资源)可以将一个job拆分两个job(将占用比较多的业务数据(50%更好)在新的job单独处理)
2024-05-05 20:14:13 2505 6
原创 使用工具速记
2).数字越小显示的越多(影响范围:浏览器的上边框宽窄,窗口的下面任务栏宽窄等)2).其他软件信息导入导出略。3).idea 不支持将之前打开项目记录导出。1).窗口单击右键->显示设置->缩放与布局。1).浏览器书签栏导出导入,网上很多,略。4).临时查询脚本不能导出(另存文件)3).导出的是sycs文件。2).选择要导的账号信息。
2024-04-26 11:44:43 407
原创 k8s安装流程
提示:安装之前参考很多好文章,写此文章作为永久免费开放,同时增加自己安装k8s记忆和理解节点名称节点IPmasterslave1slave2其他软件信息软件名版本信息说明17 Pro虚拟化软件(在win11平台安装)Windterm2.6.0linux连接工具(类似于xshell,但比它更强大,不用设置字体色彩更丰富)linuxcentos7必须是centos7或以上版本,否则低centos版本k8s不支持k8sv1.16.0容器(如docker)编排框架。
2024-04-14 20:08:22 2339
原创 k8s安装遇到问题合集
或有类似的问题,大部分都是kube-flannel.yml的问题,这里建议使用我的文件上传到主节点即可。根据上图可以很明显看到,dashboard的数据包直接被REJECT(拒绝)了,找到原因就好办了,设置成允许(ACCEPT)就行。dashboard的镜像拉取成功,容器创建成功,但容器在启动的时候启动失败,状态为CrashLoopBackOff。4)把创建的dashboard pod删掉并重启下docker,再次创建dashboard,创建成功。从节点解压完成后在主节点查看所有节点状态都是ready。
2024-04-13 21:44:03 958
原创 linux(centos7)安装
准备部分:软件镜像地址(阿里云):https://developer.aliyun.com/mirror/虚拟化镜像软件:wmware或VirtualBox连接工具:Xshell或windTerm本地电脑:windos11系统linux版本:centos71).wind本地电脑安装linux还是很简单的,没有什么难点2).上述安装linux7 是为安装docker和k8s做准备,因为linux6或低版本不支持k8s等软件。
2024-03-31 17:31:23 718
原创 关于catalog整理
flink与其他数据库(关系型或非关系型)的catalog区别。fink的Catalog更注重提供统一的元数据访问接口和灵活的元数据管理方式。其他数据的catalog则侧重于实现元数据的持久化和管理。在实际应用中,用户可以根据具体需求选择适合的Catalog类型来管理和访问元数据或在自己内部快速定位数据位置等。flink更像(人)查询使用其他数据库的catalog(毕竟flink是实时计算组件,不是数据库)。其他数据的catalog更像(书籍目录)管理自己已存的数据或位置。
2024-03-23 22:46:51 690
原创 flink sql job时区设置
参考文档:https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/dev/table/config/#table-local-time-zone。
2024-03-12 18:48:09 902 2
原创 flink状态后端与Checkpoint联系
主要特性:持久化存储:RocksDBStateBackend 将 Flink 任务的状态持久化到 RocksDB 中,这使得状态能够在任务失败或重新启动时得以恢复。高性能:RocksDB 是一个高性能的键值存储引擎,它在处理大量数据时表现出色。RocksDBStateBackend 利用 RocksDB 的性能优势,提供快速的状态读写操作。本地存储: RocksDBStateBackend 可以将状态存储在本地文件系统上,因此它不依赖外部的分布式存储系统。
2024-02-27 16:01:59 1266
原创 阿里云flink sql报错 List of column aliases must have same degree as table; table has 1 column
因为我这边使用flink的Row类做存放数据并返回给调用方collect(row),所以注解使用@DataTypeHint("ROW...等做指定输出类型。添加注解@DataTypeHint指定输入和输出类型(如下代码片段)使用阿里云 flink 全托管写UDTF时提交使用函数报错如下。代码提交后,阿里云 flink sql语法检查正常。
2024-02-23 11:14:44 702
翻译 Flink Task 生命周期
因为 task 是算子并行实例的执行实体,所以它的生命周期跟算子的生命周期紧密联系在一起。因此,在深入介绍 StreamTask 生命周期之前,先简要介绍一下代表算子生命周期的基本方法。这些方法按调用的先后顺序如下所示。考虑到算子可能是用户自定义函数(UDF),因此我们在每个算子下也展示(以缩进的方式)了 UDF 生命周期中调用的各个方法。
2024-02-05 19:11:26 86
原创 flink 组件说明
对于流处理程序,Flink Job 的 State Backend 决定了其 state 是如何存储在每个 TaskManager 上的( TaskManager 的 Java 堆栈或嵌入式 RocksDB),以及它在 checkpoint 时的写入位置( Flink JobManager 的 Java 堆或者 Filesystem)。它是基本的工作单元,由 Flink 的 runtime 来执行。Flink 应用程序集群是一种专用的Flink 集群,仅从一个Flink 应用程序执行Flink 作业。
2024-02-05 18:09:10 1035
原创 pandas是什么
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-02-01 11:31:16 366 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人