sunnyboy_4-CSDN博客

原创 LiteFlow源码

本文介绍了LiteFlow框架的组件初始化流程和请求路由机制。在组件初始化阶段，框架通过扫描带有特定注解的节点，生成对应的代理类，包括普通组件、声明式组件、脚本组件等6种类型。重点关注DeclWarpBeanProcess类，它负责构建代理对象，通过注解传递执行类、方法和参数，灵活调用用户自定义业务逻辑。请求路由时，框架会根据节点ID和名称匹配对应的处理逻辑。整个流程体现了轻量级流程编排框架的灵活设计思想，通过动态代理和注解驱动实现组件管理和流程控制。

2025-07-12 17:01:03 318

原创某个业务采用【规则引擎】重构大幅降低耗时

重构后定时任务耗时。

2025-03-20 18:14:26 434

原创 k8s搭建 hive-metastore(iceberg,oss,mysql),kyuubi,spark-3.4.3(iceberg,oss),zookeeper使用阿里云存储桶(oss)

说明：使用iceberg作为湖的开放格式，好处可以兼容flink,spark,starrocks等不同计算引擎。作为对接客户端为了更好的执行业务开发人员的使用可以对接starrocks。在https://helm.sh/zh/docs/topics/version_skew/下载。1、说明这里的镜像文件为了支持阿里云oss都是重新打包镜像的，镜像链接会在文件中给出。2、使用到4台服务器,data4用作mysql搭建，和NFS搭建。4.5、查看可用的nfs地址。5、k8s使用helm安装。

2024-11-06 10:16:52 786

原创解决flink cdc 时间相差8小时问题

说明：由于flink cdc底层使用的是debezium本质问题是debezium 使用的时区写死了UTC.如下图。2、直接修改debezium源码，重新打包。从根本上解决问题，经测试兼容mysql,PG 一下是我修改的源码。1、本次使用的是flink-sql-connector-mysql-cdc-3.1.1.jar 测试。如果各位时间不一样可以按照自己的方式修改。3、然后重新打包flink-cdc。

2024-10-12 18:29:33 1199

原创 (mysql和pg) -＞ flink-cdc -＞ kafka -＞ flink-sql -＞ StarRocks

【代码】(mysql和pg) -＞ flink-cdc -＞ kafka -＞ flink-sql -＞ StarRocks。

2023-11-22 15:58:08 398

原创 MongoDB复杂聚合查询与java中MongoTemplate的api对应

MongoTemplate的API。MongoDB聚合json脚本。

2023-09-08 14:04:50 755

原创使用lambda表达式提取共用代码使其更加简洁

使用lambda表达式提取共用代码使其更加简洁

2023-08-23 16:40:39 282

原创 redisson实现可靠高效的延迟队列

redisson实现可靠高效的延迟消息

2023-08-17 14:28:38 1043 4

原创使用redisson客户端java位移运算实现多条件排名

3.1、由于时间戳按照正序排序所以先提交的要拍前面，说明分数要大一些。1、使用条件说明，由于一个分区有大概1万学生按照答题分数进行实时排名。附加题分数最大支持 1111111 = 2 + 4 + 8 + 16 + 32 + 64 + 128。3.2、附加题由于数量有限制分数最大不操过50分，给其分配7位。第三步、如果附加题的分数还相等则按照提交答案的时间戳正序排序。第二步、如果分数相等按照附加题的分数排序。分数 + 附加题分数 + 时间戳。第一步、按照分数排序。

2023-07-06 18:26:49 380

原创记一次cloudera删除/var/lib/cloudera-host-monitor/ts/stream/日志导致无法重启问题

1、报错信息如下：日志目录/var/log/cloudera-scm-firehose/mgmt-cmf-mgmt-HOSTMONITOR-hadoop102.log.out。很明显就是因为删除的日志导致找不到文件。

2023-06-25 13:53:08 622

原创扩展dlink-connector-phoenix使其phoenix-5.0.0支持flink1.16

目前我使用的是CDH6.3.2，flink使用的是1.6，Phoenix版本的是5.0.0这有在我的博客中提到过，hbase使用的是自带的2.x。这就遇到问题了目前有支持的比较好的是dlinky这个里面的插件，我现在需要做的是将dlink-connector-phoenix这个插件编译打包上传到flink的lib目录中使用sql-client进行测试。3、将dlink-connectors中的dlink-connector-phoenix-1.14拷贝一份到同级目录下面。mvn的仓库配置的是。

2023-06-01 17:50:32 1202

原创编译flink1.6源码并打包成CDH6.3.2的parcel并且部署CDH6.3.2

10、将打包好的flink-1.16-SNAPSHOT-bin-scala_2.12.tgz放到flink-parcel目录下。14、FLINK-1.16-SNAPSHOT-BIN-SCALA_2.12_build文件夹中包含的文件。包名：flink-1.16-SNAPSHOT-bin-scala_2.12.tgz。7、打包parcel，建议在阿里云服务器上打包很快。9、修改flink-parcel.properties。3、修改flink目录下的pom.xml文件。4、修改setting.xml文件。

2023-05-22 18:08:50 1447 3

原创【自定义debezium插件支持按照表名hash路由到同一个主题不同分区中】

自定义debezium插件支持按照表名hash路由到同一个主题不同分区中

2023-04-10 11:07:51 639

原创 CDH6.3.2引入debezium-connector-mysql-1.9.7监听mysql事件

首先说明一下为啥选用debezium，它能够根据事务的提交顺序向外推送数据，这一点非常重要。再有一个结合kafka集群能够保证高可用，对于熟悉java语言的朋友后面一篇博文会介绍怎样编写插件将事件自定义路由到你想要的主题甚至分区中。提高按顺序消费事件的并发能力。如果觉得好，请关注一下，后续将推出编写插件支持按照表名hash取模将事件分配到不同的主题或者分区当中支持多线程顺序并发消费,实现表与表之间的数据一致性

2023-04-10 10:22:00 673

原创 spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbase

spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbasehbase-connectors源码编译scala脚本测试hbase-connectorspyspark脚本测试hbase-connectors

2023-01-15 15:58:23 1078

原创 CDH6.3.2版本pyspark-sql通过hive访问hbase

CDH6.3.2版本pyspark-sql通过hive访问hbase

2023-01-09 17:27:38 437

原创 streamsets3.22服务器CDH版本安装

streamsets3.22.3服务器CDH版本安装

2022-12-30 15:36:23 839 6

原创 pyspark结合hive使用 spark on hive方式开发代码附上代码实例

pyspark结合hive使用 spark on hive方式开发代码附上代码实例

2022-12-16 17:30:02 759

原创 vscode jupyter配置远程服务器开发

vscode jupyter配置远程服务器开发

2022-12-16 16:53:37 1838

原创 conda打包pyspark运行环境在yarn上运行

conda打包pyspark运行环境在yarn上运行

2022-12-14 17:49:06 709

原创打包CDH6.3.2版本的pyspark到conda中进行日常开发

打包CDH6.3.2版本的pyspark到conda中进行日常开发

2022-12-11 18:39:29 351

原创 python3.7.6版本支持spark3.3.1的pyspark

python3.6.5版本支持spark3.3.1的pyspark

2022-12-10 19:55:36 1891 1

原创服务器编译spark3.3.1源码支持CDH6.3.2

服务器编译spark3.3.1源码支持CDH6.3.2

2022-12-10 14:01:45 1935 6

原创记录一次被植入木马处理

记录一次被植入木马处理

2022-12-09 11:16:29 892 2

原创 CDH-6.3.2完整安装附带资源包

CDH-6.3.2完整安装附带资源包

2022-12-07 19:34:39 1998 1

原创 vscode中jupyter插件使用conda环境引入pyspark

vscode中jupyter插件使用conda环境引入pyspark

2022-11-28 00:08:12 1241

原创 mac conda3安装pyspark以及注意问题

mac conda3安装pyspark以及注意问题

2022-11-27 17:56:07 1176

原创 pandas学习

pandas学习

2022-11-25 16:18:11 435

原创 python分析【都挺好】小说任务关系

python分析【都挺好】小说任务关系

2022-11-18 14:51:48 519

原创解决matplotlib中文显示异常问题

mac matplotlib中文显示异常

2022-11-18 11:48:46 321

原创巧用微服务进行大数据量计算

巧用微服务进行大数据量计算

2022-11-11 14:16:11 995

原创在vscode创建python工程运行conda环境

在vscode创建python工程运行conda环境

2022-11-07 16:39:33 3545

原创 jdk8对Map集合进行排序

jdk8对Map集合进行排序

2022-09-07 14:55:43 1149

原创使用枚举方式消除if-else

使用枚举方式消除if-else

2022-08-23 15:35:43 123

原创采用yarn方式启动spark-thriftserver

采用yarn方式启动spark-thriftserver

2022-08-16 18:12:14 1939

原创 spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例

spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例

2022-08-12 10:41:25 487

原创 spark报错：java.lang.String is not a valid external type for schema of bigint

spark报错：java.lang.String is not a valid external type for schema of bigint

2022-08-11 10:42:32 1795

原创 yarn怎样调度spark答疑

yarn怎样调度spark答疑

2022-08-08 15:13:11 654

原创 jdk8集合对象多属性去重

jdk8集合对象多属性去重

2022-06-24 17:17:26 745

原创数据归一化处理

数据归一化1、最值归一化样本值 - 最小值 / (最大值 - 最小值)将所有数据映射到 0 - 1 之间如果存在极值比如收入大部分人收入在1W 有些人收入在1000W2、均值方差(标准差)归一化样本值 - 均值 / 方差把所有数据归一到均值为0方差为1的分布中s²=((x1-x)²+(x2-x)²+···+(xn-x)²)/nnp.var(x)作用：衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。标准层差:s = sqrt(s²)

2022-06-10 17:03:45 5875