shirukai-CSDN博客

原创 Flink协调器Coordinator及自定义Operator

最近的项目开发过程中，使用到了Flink中的协调器以及自定义算子相关的内容，本篇文章主要介绍Flink中的协调器是什么，如何用，以及协调器与算子间的交互。

2024-06-06 17:57:19 2294

原创 Flink1.17之前实现JdbcLookup谓词下推

Flink在1.17版本之前，flink-connector-jdbc的LookupJoin是不支持on条件下推的，例如on device_id=‘1’，查询SQL中是不会包含device_id='1’的条件，相关issue：https://issues.apache.org/jira/browse/FLINK-32321，在1.19版本该问题已经解决。谓词不下推会导致每次查询的数据量变多，本篇文章主要介绍如何在1.17支持谓词下推。

2024-05-16 10:37:41 895

原创 Flink LookupJoin攒批查询

使用Lookup Join进行维表关联时，流表数据需要实时与维表数据进行关联。使用Cache会导致数据关联不准确，不使用Cache会造成数据库服务压力。攒批查询是指攒够一定批数量的数据，相同的查询Key只查询一次，从而减少查询次数。对短时间Key重复率比较高的场景有不错的性能提升。

2024-05-16 10:36:54 1765 2

原创 Flink CDC PostgresCDC全量数据同步阶段支持字段排序

在使用PostgresCDC进行数据同步的时候，全量阶段会导致状态大小疯涨，平时设置的状态ttl是基于处理时间的，但是全量阶段数据在短时间内被Flink处理，ttl的设置会导致过期的数据被丢弃，数据处于无序状态，会导致处理结果不一致。如果源数据有时间字段可以表示处理顺序的话，可以按照此字段进行有序处理，将会解决处理结果不一致的问题。当然如果不设置ttl，则无需考虑乱序问题。本篇文章主要介绍如何在PostgresCDC全量阶段（非增量快照同步）支持字段排序。

2024-05-16 10:35:57 586

原创 Python多线程慎用shutil.make_archive打包

记一下在工作中遇到一个错误，先说一下结论shutil.make_archive是线程不安全的，要慎重使用！！！参考：https://stackoverflow.com/questions/41625702/is-shutil-make-archive-thread-safe本篇文章会分别从多线程下使用shutil.make_archive打包会导致什么问题、原因是什么、如何解决三个方面进行讲解。

2023-04-18 10:51:09 1413

原创 SpringBoot动态定时任务、动态Bean、动态路由

SpringBoot中动态注册定时任务、动态注册Bean以及动态注册Controller路由

2022-07-22 14:26:30 1330

原创 Python使用SSH代理访问远程Docker

本篇文章将通过两个方案实现访问远程docker：通过改造SSH用户密码认证访问远程Docker，通过SSH命令行隧道方式访问远程Docker

2022-07-22 10:39:57 1738

原创 Java本地&远程调用Matlab函数及脚本

Java本地&远程调用Matlab函数及脚本Matlab版本： 2020bMatlab提供了丰富的工具箱，如果可以使用Java调用Matlab来实现一些特定的算法，确实是一个不错的想法，经过实验证明这个想法可行，但是性能差点事情，对于一些特殊场景还是可以尝试的。查阅了网上大量的资料，实现Java调用Matlab基本有两种实现思路：1. 将Matlab函数打成Jar类库，然后基于MCR运行 2. 使用Matlab提供的Java Matlab Engine API。本篇文章也是围绕着两个思路，

2022-03-21 17:45:57 7956 14

原创 Flink写RocketMQ支持动态UserProperty

Flink写RocketMQ支持动态UserPropertyFlink version: 1.14.0RocketMQ version: 4.5.2Github: https://github.com/shirukai/rocketmq-flink.git本篇文章主要记录了在Flink Table中如何使用RocketMQ的Sink，并且通过修改源码支持动态的UserProperty，写这篇文章就当是补充学习吧，其中涉及到Flink Table自定义数据源、RocketMQ的使用等相关的知识。

2022-03-10 17:40:35 4223 1

原创 Mac上安装Octave替代MATLAB进行信号分析相关的工作

Mac上安装Octave替代MATLAB进行信号分析相关的工作最近在从事机械设备诊断信号分析相关的工作，看了一些诊断相关的资料，其中有不少使用MATLAB进行分析的程序代码。在学校的时候使用过MATLAB，但貌似早就还给了老师。MATLAB的安装包和安装教程可以参考：https://www.cnblogs.com/qq2399382639/p/14530700.html，https://www.bilibili.com/video/BV1uK4y1W7qB。这篇文章先就简单说一下为什么要用Octave代

2022-02-21 14:25:23 2035 1

原创 Flink中基于Akka的RPC实现

Flink中基于Akka的RPC实现版本说明：Flink: 1.10.11 前言Flink中RPC是基于Akka实现的，在上一篇文章《使用Akka实现简单RPC框架》中，使用Akka的基本API加上Java动态代理实现了一个简单的RPC框架，对Akka不太熟悉的同学可以先参考那篇文章手写一下代码，然后再来阅读这篇文章会更好的理解Flink的RPC实现，基本原理都是一样的。我也是先看的Akka相关知识，然后再重新阅读的Flink代码，不得不承认，我上一篇文章的实现并没有Flink中实现的优雅，确实有

2021-11-18 17:58:50 2871

原创使用Akka实现简单RPC框架

使用Akka实现简单RPC框架最近简单看了看Flink的RPC通讯相关的源码，它是通过Akka实现的，为了更好的阅读理解代码，又大体看了看Akka相关的知识。这篇文章主要记录了如果使用Akka来实现RPC通讯，其中涉及到了akka actor、akka remote等相关知识。1 实现原理首先大体讲一下实现原理，其实很简单，与我之前写过的RPC框架系列文章里手写了一个原生的JavaRPC例子很类似，只不过通过Akka我们不需要进行底层的网络编程以及去关心数据的序列化与发序列化问题。首先客户端使用动

2021-11-17 18:26:22 2796

原创 Flask中SQLAlchemy自动更新表结构

Flask中SQLAlchemy自动更新表结构Python: 2.7Flask: 1.0.3Flask-SQLAlchemy: 2.3.2SQLAlchemy: 1.3.12Flask-SQLAlchemy是Flask中比较好用的ORM框架，说起ORM框架，熟悉SpringBoot开发的同学肯定对JPA比较了解，它们都是通过实体对象映射关系库中的表，操作实体对象，进行增删改查，减少了SQL的编写，非常方便。在JPA中，当我们修改了一个实体类之后（添加字段），对应的表结构可以自动发生更新，通常不需

2021-07-31 12:08:01 5140 3

原创 Flink自定义窗口触发器

Flink内置触发器及自定义窗口触发器flink: 1.10.1Github: https://github.com/shirukai/flink-examples-trigger.git前段时间同事开发遇到一个需求，要求按照事件时间10分钟窗口计数，同时需要有新数据时每分钟输出一次结果。窗口计数非常简单，设置一个窗口，然后运用一个聚合函数就可以解决了。但是有新数据时每分钟输出一次结果，好像实现起来并不容易，因为按照平时的窗口，设置10分钟之后，要等到watermark超过了当前的窗口之后，才会被

2021-06-08 14:17:32 5658 13

原创 Java单元测试动态修改环境变量

Java单元测试动态修改环境变量今天再写单元测试的时候，遇到一个比较有趣的事情，程序需要读取一个环境变量，而这个变量又是动态生成的，所以在执行单元测试之前要进行环境变量的配置。目前总结了两种方案可以实现动态修改环境变量，修改后的环境变量仅对当前进程生效，即仅在当前Java进程中调用System.getenv(name)生效，分别是通过反射修改Runtime中保存环境变量的Map、和通过JNI的方式调用系统的setenv方法。下面将分别对两种方案进行实现。1 通过反射修改Runtime中保存环境变量的Ma

2021-04-01 19:08:32 3410

原创 Flink在k8s生产环境高可用部署

Flink在k8s生产环境高可用部署flink: 1.10.1kubernetes: 1.18.81 前言目前参与的项目基本开发完成，打算开发的微服务和Flink任务统一部署到k8s上。之前几个项目都是跑在YARN上，Flink on YARN的部署模式是在生产中比较常见，YARN的稳定性和资源调度能力也是有目共睹的，依托Hadoop生态Flink高可用也很容易实现。关于On YARN还是On K8S之前文章都有介绍，《Flink Cluster On YARN部署》和《Flink Clust

2020-11-02 16:56:24 8739 33

原创 k8s使用mac上自带的NFS

k8s使用mac上自带的NFS服务之前文章里有记录如何在mac电脑上使用docker，并搭建k8s集群。最近在开发测试的时候，遇到k8s挂载持久卷的问题。本来想在开发的电脑上搭建一个NFS服务，经过在网上一番搜索发现mac电脑本身就带有一个NFS服务。这篇文章主要记录一下如何在mac上开启并配置NFS服务，以及如何在k8s上使用NFS。1 配置并开启NFS服务Mac上的NFS服务是作为系统服务提供的，可以使用nfsd status命令查看nfsd当前的状态。1.1 配置共享目录Mac自带的NF

2020-11-02 16:55:28 1489

原创使用Conda Pack打包Python独立运行时环境

使用Conda Pack打包Python独立运行时环境版本说明：python=2.7Conda 的Pack工具，可以说是让我发现了新大陆。之前有个项目使用它解决了一个棘手的问题，一直没有整理相关笔记，时间长了容易淡忘，恰好有同事问我如何实现的，这里就重新整理一下。1 棘手问题描述简单描述一下项目中遇到的这个棘手问题：这个项目是一个Python2.7开发的Flask服务，它里面有不少依赖需要使用pip安装，并且在网络不好的情况下容易下载失败。要求是能够让用户能够快速部署，几乎不做复杂的操作，就

2020-09-27 10:27:07 25250 5

原创 Python中使用flatmap

Python中使用flatmap写多了Spark、Flink突然觉得到处是map、flatmap，在这些框架中有map、flatmap算子，在scala语言里有对应的方法，而在java 8之后，我们ye可以通过stream api使用map和flatmap，这些用法，用一次就会爱上它，代码确实优雅、好用。早之前我一直以为python里也有这样的用法，也使用过filter、map等方法，但直到今天在写一个小脚本需要用到flatmap时，才发现竟然在语言层面没有原生支持。这里不罗逼嗦了，直接上实现flatm

2020-09-25 15:12:24 5825

原创 Flink Cluster On Kubernetes部署

#Flink Cluster On Kubernetes部署Flink版本：1.10.1kubernetes：1.16.5Flink 在Kubernetes上部署分为Job cluster和Session cluster两种模式。Job cluster需要我们将自己的Jar打到flink镜像里一块部署，session模式可以启动cluster之后，我们再提交jar到session cluster。1 环境准备在YARN模式部署的文章里，我们是直接从官网下载编译后的包进行部署的。由于Job C

2020-09-23 16:34:30 1785

原创 Flink Cluster On YARN部署

Flink Cluster On YARN部署Flink版本：1.8.2Hadoop: 3.0.3参考文章：文中关于Per-Job、Session模式的描述摘自《Deploy Apache Flink® Natively on YARN/Kubernetes》 https://ververica.cn/developers/deploy-apache-flink-natively-on-yarn-kubernetes/Flink在YARN上部署有两种模式，一种是Session模式，另一种是Pe

2020-09-23 16:33:40 2428

原创 Flink算子扩缩容过程中的状态迁移

Flink算子扩缩容过程中的状态迁移根据数据量动态调整Flink应用的算子并行度，在实际业务应用中很常见。对于无状态的算子来说，更改算子并行度非常的容易。但对于有状态的算子来说，调整算子并行度时，需要考虑状态的重新分配。之前文章里提到，Flink中的状态分为键值分区状态、算子列表状态、算子聚合状态、广播状态，那么这些状态在并行度改变时，是如何在子任务实例间迁移的？这篇文章，将分别使用代码示例介绍这四种状态的迁移过程。1 键值分区状态键值分区状态，是应用在KeyedStream上的算子里使用的状态，关于

2020-09-20 10:41:02 2326

原创 Flink中使用嵌入式ElasticSearch进行单元测试

Flink中使用嵌入式ElasticSearch进行单元测试Flink版本 1.8.0ElasticSearch版本 5.1.2Scala版本 2.11.12Java版本 1.8Github地址：https://github.com/shirukai/flink-examples-embedded-elasticsearch.git1 前言前些时间同学在群里问关于ElasticSearch的单元测试，如何mock。当时看到这个问题，我想的是mock一个写ElasticSearch的客户端的

2020-06-23 16:25:35 1943

原创调试Local模式下带状态的Flink任务

调试Local模式下带状态的Flink任务Flink版本: 1.8.0Scala版本: 2.11在本地开发带状态的Flink任务时，经常会遇到这样的问题，需要验证状态是否生效？以及重启应用之后，状态里的数据能否从checkpoint的恢复？首先要明确的是，Flink重启时不会自动加载状态，需要我们手动指定checkpoint路径。笔者从Spark的Structured Streaming转到Flink的时候，就遇到这样的问题。在Spark中，我们使用的状态信息会随着程序再次启动时自动被加载出来。所以

2020-06-14 13:00:02 4480 6

原创 Flink DataStream API之Operators

Flink DataStream API之Operators官网位置：https://ci.apache.org/projects/flink/flink-docs-release-1.9/zh/dev/stream/operators/Operators transform one or more DataStreams into a new DataStream. Programs can combine multiple transformations into sophisticated dat

2020-06-11 16:13:06 467

空空如也

空空如也