工作中的程序员-CSDN博客

原创 scala与java与python基础对比

*关键点：**deepCopy()创建了新的Address对象，所以修改副本不会影响原始对象。：person1和person2共享同一个Address对象，修改一个会影响另一个。深拷贝：不仅复制对象本身，还递归复制所有引用类型属性，如果修改副本中的引用类型属性，原始对象也会被影响。*使用copy()方法可以方便地创建副本。修改副本不会影响原始对象。

2025-11-23 18:51:37 125

本文介绍了Python3的基础知识和一些有趣特性，包括动态类型语言特点、列表索引切片操作、is与==运算符区别、Python与Scala类型比较、字符串格式化方法，以及可变与不可变对象的概念。重点对比了Python和Scala在字典/Map实现上的异同，分析了两种语言处理多类型数据的机制差异。文章还详细讲解了三种字符串格式化方式，并通过示例说明了元组、列表等数据结构的可变性差异及其在函数参数传递中的应用。这些内容为Python初学者提供了语言特性的基础认知。

2025-11-22 19:17:58 257 1

原创 scala基础整理(主要常用)

scala基础整理(主要常用)

2025-11-15 19:39:04 1091 5

原创 Flink学习整体架构

Flink架构主要由Client、JobManager和TaskManager三部分组成。JobManager负责接收任务、调度执行和容错管理，包含数据流图生成、检查点协调等组件。TaskManager执行具体任务，管理内存和网络通信。Flink支持三种部署模式：Session模式共享资源但隔离性差；Per-Job模式资源隔离但利用率低；Application模式降低客户端负载且支持应用内资源共享。Flink作业执行流程涉及四种图的转换：从StreamGraph到JobGraph，再到ExecutionGr

2025-10-08 23:57:41 866

原创使用中sql注意点

sql 使用误解或注意细节点

2025-10-08 18:47:20 529

原创 flink keyby使用与总结基础片段梳理

2将key的HashCode值进行特殊的hash处理，MathUtils.murmurHash(keyHash)，一定返回正数，避免返回的数字为负。最终会调用KeyGroupStreamPartitioner的selectChannel方法，将keyBy的条件的返回值传入到该方法中；是对数据进行实时的分区，不是上游发送给下游，而是将数据写入到对应的channel的缓存中，下游到上游实时拉取；注意：1.如果将自定义POJO当成key，必须重新hashcode方法，2.不能将数组当成keyBy的key。

2025-10-08 15:24:27 286

原创 hive sql优化基础

SQL优化知识点总结：数据倾斜分类与Join倾斜处理数据倾斜是SQL性能优化中的常见问题，主要分为5类：Join倾斜（最常见）、GroupBy、Count(Distinct)、ROW_NUMBER和动态分区。其中Join倾斜的典型解决方案是使用MAPJOIN HINT语法，通过/+ mapjoin(小表)/提示优化大表Join小表的操作，将小表加载到内存中提高执行效率。这种方法特别适用于大表与小表关联的场景，能有效避免数据分布不均导致的性能问题。

2025-10-08 15:18:06 382

原创 flink UTDF函数

flink utdf简单代码案例

2025-10-08 15:07:56 259

原创业务KPI指标说明

游戏行业KPI指标含义情况

2025-10-08 15:02:14 1129

原创 git使用整理

本文摘要介绍了使用IDEA拉取Git项目的步骤及常见问题解决方法 (基础git使用)

2025-10-08 14:58:24 1165

原创 flink中 Lookup Join和Interval Join和Regular Join,Temporal Join使用场景与对比

Flink中三种Join对比：1）Lookup Join用于流表关联外部维表（如MySQL），无状态但依赖外部查询性能；2）Interval Join通过时间窗口关联双流（如1小时内订单匹配支付），状态仅保留窗口数据；3）Regular Join实现无限制双流关联，状态持续增长需设置TTL。选型建议：查维表用Lookup，时间窗用Interval，无限制精确匹配用Regular。

2025-08-30 18:29:09 1183

原创 scala 样例类

输出:2、带辅助构造函数的样例类举例输出：3.带默认参数的主构造函数 vs 辅助构造函数举例代码如下（示例）：*辅助构造函数必须首行调用主构造函数或其他辅助构造函数（如 this(…)），这是 Scala 的强制语法规则.输出:其他举例举例另一种例子

2025-08-10 21:09:12 341

原创 doris_工作使用整理

提示：doris使用版本3.x提示：以下是本篇文章正文内容，下面案例可供参考。

2025-06-24 23:23:34 1172

原创 flink rocksdb状态说明

1).关于rocksdb数量

2025-05-05 18:53:10 1579

原创 flink监控指标

配置完成后就可以在页面查询(部分需要验证)指标。

2025-05-05 15:42:41 515

原创 flink常用算子整理

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考。

2025-05-04 20:05:10 1924

原创 Flink基础整理

概念: 批流统一是指Flink提供了一种统一的API和执行引擎，使得批处理（Batch Processing）和流处理（Stream Processing）可以使用相同的API进行编程，并且共享相同的执行计划和优化策略。这一特性简化了开发流程，减少了代码重复，同时提高了系统的灵活性和性能(一套代码处理流或批数据)。体现在以下几个方面：5.Flink的状态后端在 Apache Flink 中，状态后端（StateBackend）是管理状态存储、访问和维护的核心组件。状态后端定义了状态的存储方式，以及在发

2025-05-04 19:12:54 976

原创 flink Shuffle的总结

关于 ** 5 种 Shuffle 类型** 的区别、使用场景及 Flink 版本支持的总结：* 注意:下面是问AI具体细节与整理学习••：实时流处理（如实时风控、监控告警）。•：低延迟，适合对实时性要求高的场景。•：资源占用高，可能因反压导致内存积压。••：离线批处理（如 TPC-DS 分析任务）。•：资源利用率高，适合大规模数据批处理。•：磁盘 I/O 开销大，性能较低。••：批处理作业（尤其资源波动或数据倾斜场景）。•。

2025-04-07 01:14:45 761

原创 flink广播算子Broadcast

这个方法的返回参数是 BroadcastConnectedStream，具有类型方法 process()，传入一个特殊的 CoProcessFunction 来书写我们的模式识别逻辑。这样做的原因是，Flink 中是不存在跨 task 通讯的。所以为了保证 broadcast state 在所有的并发实例中是一致的，我们在处理广播流元素的时候给予写权限，在所有的 task 中均可以看到这些元素，并且要求对这些元素处理是一致的，那么最终所有 task 得到的 broadcast state 是一致的。

2025-03-24 01:11:10 679

原创 es的几种请求整理

【代码】es的几种请求整理。

2024-10-11 00:56:43 1398

转载 rocksdb 整理

文章1文章2文章3文章4文章5。

2024-09-17 16:59:10 705

原创 ES 索引或索引模板

当需要为同一类索引应用相同的配置、映射、别名时，如果每次创建索引都逐一配置会比较麻烦。索引模板的出现正是为了简化这种操作，使用索引模板你可以方便地为某一类索引自动配置某些共同的参数。索引模式（如 user_data_*，会生成例如:user_data_2024_08,user_data_2024_09索引。

2024-09-16 22:56:01 1005

原创 java基础(小技巧)

文章目录一、日志输出二、字符串拼接三、日期比较四、常用注解五、Lombok的原理提示：以下是本篇文章正文内容，下面案例可供参考一、日志输出之前使用的方式。在要使用的类里面定义日志类：private static Logger logger = LoggerFactory.getLogger(“xxx”);现在使用方式:### pom.xml配置文件引入依赖 <dependency> <groupId>org.projectlombok&l

2024-09-16 18:11:50 1536

转载 Flink RocksDB 状态后端参数调优

Flink 作业中的每一个注册的状态都对应一个列族（column family），即包含自己独立的 memtable 和 sstable 集合。之前笔者已经详细讲解过 RocksDB 的 compaction 策略，并且提到了读放大、写放大和空间放大的概念，对 RocksDB 的调优本质上就是在这三个因子之间取得平衡。而在 Flink 作业这种注重实时性的场合，则要重点考虑读放大和写放大。block cache 则扮演读缓存的角色，采用 LRU 算法存储最近使用的 block，对读性能有较大的影响。

2024-09-03 00:39:55 621

原创 kafka常用命令汇总

它用于指定一个或多个 Kafka broker 的地址，通常用于启动消费者、生产者以及其他不需要直接与 ZooKeeper 交互的命令。在使用 Kafka 命令行工具时，–zookeeper 和 --bootstrap-server 参数用于指定不同的连接信息，具体取决于你使用的命令以及 Kafka 版本。说明:可以看到哪个topic有哪些消费组消费，消费的偏移量位置，还可以知道程序消费到哪个便宜量位置处。表示最新的偏移量(写入kafka各个分区最后一条数据的偏移量)，或。最早的(各个分区)偏移量值。

2024-08-26 00:13:33 861

原创 flink周边使用技巧与汇总

如果只需要将数据发送到 Sink 而不需要容错机制，可以选择使用addSink。如果需要 Sink 支持状态管理和容错，则应该使用sinkTo。

2024-08-22 08:31:00 1099

原创 flink读写案例合集

提示：这里主要总结在工作中使用到的和遇到到的问题：Java flink版本1.15+} }} }} }} }} }} }import org} }} }} }} }} }@Override在低版本的flink-connector-kafka中，不支持KafkaSerializationSchema。

2024-08-21 00:57:03 718

原创 ConcurrentModificationException问题解决

举例:将相同的key和修改完成的value再put到mapvalue中是可以的(前提是key相同时可以，如果key不同，则相当于mapstate新增数据会报错)这是最安全的方法之一，因为它提供了 remove() 方法来移除当前元素。mapvalue也是上面类似的操作。通过遍历使用 iterator.remove();总共情况在Java hashmap和flink mapstate操作不当都会报这个错。如果想对mapvalue 在循环遍历时修改value值是可以的。中修改集合(移除已有的或新增)。

2024-08-20 08:50:37 734

原创 windows本地kafka和zookeeper单机版

总结:上面总共开启了3个cmd。zookeeper配置环境变量，在cmd中可以不指定路径，直接执行。kafka没有配置环境变量，要有路径执行。在config目录下复制一份zoo_sample.cfg文件到同级目录，然后更改名称为zoo.cfg。server.properties配置完后，需要在kafka_2.12-3.5.1目录下。2).cmd启动zookeeper客户端(可以不用启动，截图略)1).cmd启动zookeeper服务端运行。1).新建zookeeper系统变量。2).添加配置path。

2024-08-20 00:54:42 1444

原创 flink DataStream Operator算子操作举例

上面介绍了 DataStream 的常用算子，其实上面也有一些算子也是同样适合于 DataSet 的，比如 Map、FlatMap、Filter 等（相同的就不再重复了）；也有一些算子是 DataSet API 独有的，比如 DataStream 中分区使用的是 KeyBy，但是 DataSet 中使用的是 GroupBy。即第一个元素和第二个元素处理得到一个新的元素，新的元素再和第三个元素做处理…以上示例是在 5 秒的窗口中连接两个流，其中第一个流的第一个属性的连接条件等于另一个流的第二个属性。

2024-08-12 00:33:21 924

原创快捷工具(提升工作效率)

提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-07-14 10:18:19 793

原创 flink cdc mysql整理与总结

1、FlinkCDC 提供了对 Debezium 连接器的封装和集成，简化了配置和使用的过程，并提供了更高级的 API 和功能，例如数据格式转换、事件时间处理等。Flink CDC 使用 Debezium 连接器作为底层的实现，将其与 Flink 的数据处理能力结合起来。通过配置和使用 Flink CDC，您可以轻松地将数据库中的变化数据流转化为 Flink 的 DataStream 或 Table，并进行实时的数据处理、转换和分析。2、Flink的DataStream和SQL比较成熟和易用。

2024-05-26 17:28:25 2059

翻译 flink要点

在 Flink 的 Aligned checkpoints 机制中，当触发检查点操作时，所有并行任务都会暂停当前的处理，并等待所有上游数据的检查点栅栏（Checkpoint Barrier）到达。相对于传统的 Aligned checkpoints，Unaligned checkpoints 提供了更高的效率和更低的处理延迟。在 Flink 中，Timer（定时器）是处理时间相关逻辑的核心机制之一，尤其适用于需要在特定时间点执行操作的场景。：在基于时间的窗口操作中，Timer 用于触发窗口的计算与关闭。

2024-05-21 17:33:25 234

原创 flink优化案例

CheckPoint说明:每个需要checkpoint的应用在启动时，Flink的JobManager为其创建一个CheckpointCoordinator，CheckpointCoordinator全权负责本应用的快照制作。CheckpointCoordinator周期性的向该流应用的所有source算子发送barrier；

2024-05-13 17:30:41 1985 1

原创 flink sql 优化

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外，例如写数据库)，增加资源只会让job性能越来越差或报错(亲身经历job性能差，特别痛苦，一直加资源性能还是差或运行报错)。需要不断找根源问题，多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是很差(资源给的很多性能还是不理想)(略增加一些资源)可以将一个job拆分两个job(将占用比较多的业务数据(50%更好)在新的job单独处理)

2024-05-05 20:14:13 3344 6

原创使用工具速记

2).数字越小显示的越多(影响范围:浏览器的上边框宽窄，窗口的下面任务栏宽窄等)2).其他软件信息导入导出略。3).idea 不支持将之前打开项目记录导出。1).窗口单击右键->显示设置->缩放与布局。1).浏览器书签栏导出导入，网上很多，略。4).临时查询脚本不能导出(另存文件)3).导出的是sycs文件。2).选择要导的账号信息。

2024-04-26 11:44:43 565

原创 k8s安装流程

提示：安装之前参考很多好文章，写此文章作为永久免费开放，同时增加自己安装k8s记忆和理解节点名称节点IPmasterslave1slave2其他软件信息软件名版本信息说明17 Pro虚拟化软件(在win11平台安装)Windterm2.6.0linux连接工具(类似于xshell,但比它更强大,不用设置字体色彩更丰富)linuxcentos7必须是centos7或以上版本，否则低centos版本k8s不支持k8sv1.16.0容器(如docker)编排框架。

2024-04-14 20:08:22 2896

原创 k8s安装遇到问题合集

或有类似的问题，大部分都是kube-flannel.yml的问题，这里建议使用我的文件上传到主节点即可。根据上图可以很明显看到，dashboard的数据包直接被REJECT(拒绝)了，找到原因就好办了，设置成允许(ACCEPT)就行。dashboard的镜像拉取成功，容器创建成功，但容器在启动的时候启动失败，状态为CrashLoopBackOff。4）把创建的dashboard pod删掉并重启下docker，再次创建dashboard，创建成功。从节点解压完成后在主节点查看所有节点状态都是ready。

2024-04-13 21:44:03 1574

原创 jar冲突与解决方式

提示：主要排查java冲突或解决jar包冲突。语言:java/scala。

2024-04-12 20:21:58 2888

原创 linux(centos7)安装

准备部分:软件镜像地址(阿里云):https://developer.aliyun.com/mirror/虚拟化镜像软件:wmware或VirtualBox连接工具:Xshell或windTerm本地电脑:windos11系统linux版本:centos71).wind本地电脑安装linux还是很简单的,没有什么难点2).上述安装linux7 是为安装docker和k8s做准备，因为linux6或低版本不支持k8s等软件。

2024-03-31 17:31:23 837

k8s安装遇到问题合集

空空如也