自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 scala与java与python基础对比

*关键点:**deepCopy()创建了新的Address对象,所以修改副本不会影响原始对象。:person1和person2共享同一个Address对象,修改一个会影响另一个。深拷贝:不仅复制对象本身,还递归复制所有引用类型属性,如果修改副本中的引用类型属性,原始对象也会被影响。*使用copy()方法可以方便地创建副本。修改副本不会影响原始对象。

2025-11-23 18:51:37 88

原创 python基础(常用知识点)

本文介绍了Python3的基础知识和一些有趣特性,包括动态类型语言特点、列表索引切片操作、is与==运算符区别、Python与Scala类型比较、字符串格式化方法,以及可变与不可变对象的概念。重点对比了Python和Scala在字典/Map实现上的异同,分析了两种语言处理多类型数据的机制差异。文章还详细讲解了三种字符串格式化方式,并通过示例说明了元组、列表等数据结构的可变性差异及其在函数参数传递中的应用。这些内容为Python初学者提供了语言特性的基础认知。

2025-11-22 19:17:58 230 1

原创 scala基础整理(主要常用)

scala基础整理(主要常用)

2025-11-15 19:39:04 1006 1

原创 Flink学习 整体架构

Flink架构主要由Client、JobManager和TaskManager三部分组成。JobManager负责接收任务、调度执行和容错管理,包含数据流图生成、检查点协调等组件。TaskManager执行具体任务,管理内存和网络通信。Flink支持三种部署模式:Session模式共享资源但隔离性差;Per-Job模式资源隔离但利用率低;Application模式降低客户端负载且支持应用内资源共享。Flink作业执行流程涉及四种图的转换:从StreamGraph到JobGraph,再到ExecutionGr

2025-10-08 23:57:41 845

原创 使用中sql注意点

sql 使用误解或注意细节点

2025-10-08 18:47:20 510

原创 flink keyby使用与总结 基础片段梳理

2将key的HashCode值进行特殊的hash处理,MathUtils.murmurHash(keyHash),一定返回正数,避免返回的数字为负。最终会调用KeyGroupStreamPartitioner的selectChannel方法,将keyBy的条件的返回值传入到该方法中;是对数据进行实时的分区,不是上游发送给下游,而是将数据写入到对应的channel的缓存中,下游到上游实时拉取;注意:1.如果将自定义POJO当成key,必须重新hashcode方法,2.不能将数组当成keyBy的key。

2025-10-08 15:24:27 243

原创 hive sql优化基础

SQL优化知识点总结:数据倾斜分类与Join倾斜处理 数据倾斜是SQL性能优化中的常见问题,主要分为5类:Join倾斜(最常见)、GroupBy、Count(Distinct)、ROW_NUMBER和动态分区。其中Join倾斜的典型解决方案是使用MAPJOIN HINT语法,通过/+ mapjoin(小表)/提示优化大表Join小表的操作,将小表加载到内存中提高执行效率。这种方法特别适用于大表与小表关联的场景,能有效避免数据分布不均导致的性能问题。

2025-10-08 15:18:06 365

原创 flink UTDF函数

flink utdf简单代码案例

2025-10-08 15:07:56 229

原创 业务KPI指标说明

游戏行业KPI指标含义情况

2025-10-08 15:02:14 958

原创 git使用整理

本文摘要介绍了使用IDEA拉取Git项目的步骤及常见问题解决方法 (基础git使用)

2025-10-08 14:58:24 1137

原创 flink中 Lookup Join和Interval Join和Regular Join,Temporal Join使用场景与对比

Flink中三种Join对比:1)Lookup Join用于流表关联外部维表(如MySQL),无状态但依赖外部查询性能;2)Interval Join通过时间窗口关联双流(如1小时内订单匹配支付),状态仅保留窗口数据;3)Regular Join实现无限制双流关联,状态持续增长需设置TTL。选型建议:查维表用Lookup,时间窗用Interval,无限制精确匹配用Regular。

2025-08-30 18:29:09 1127

原创 scala 样例类

输出:2、带辅助构造函数的样例类举例​​输出​​:3.带默认参数的主构造函数 vs 辅助构造函数 举例代码如下(示例):*​​辅助构造函数必须首行调用主构造函数或其他辅助构造函数​​(如 this(…)),这是 Scala 的强制语法规则.输出:其他举例举例另一种例子

2025-08-10 21:09:12 308

原创 doris_工作使用整理

提示:doris使用版本3.x提示:以下是本篇文章正文内容,下面案例可供参考。

2025-06-24 23:23:34 1090

原创 flink rocksdb状态说明

1).关于rocksdb数量

2025-05-05 18:53:10 1509

原创 flink监控指标

配置完成后就可以在页面查询(部分 需要验证)指标。

2025-05-05 15:42:41 493

原创 flink常用算子整理

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考。

2025-05-04 20:05:10 1851

原创 Flink基础整理

概念: 批流统一是指Flink提供了一种统一的API和执行引擎,使得批处理(Batch Processing)和流处理(Stream Processing)可以使用相同的API进行编程,并且共享相同的执行计划和优化策略。这一特性简化了开发流程,减少了代码重复,同时提高了系统的灵活性和性能(一套代码处理流或批数据)。体现在以下几个方面:5.Flink的状态后端在 Apache Flink 中,状态后端(StateBackend)是管理状态存储、访问和维护的核心组件。状态后端定义了状态的存储方式,以及在发

2025-05-04 19:12:54 960

原创 flink Shuffle的总结

关于 ** ​5 种 Shuffle 类型** 的区别、使用场景及 Flink 版本支持的总结:* 注意:下面是问AI具体细节与整理学习••:实时流处理(如实时风控、监控告警)。•:低延迟,适合对实时性要求高的场景。•:资源占用高,可能因反压导致内存积压。••:离线批处理(如 TPC-DS 分析任务)。•:资源利用率高,适合大规模数据批处理。•:磁盘 I/O 开销大,性能较低。••:批处理作业(尤其资源波动或数据倾斜场景)。•。

2025-04-07 01:14:45 716

原创 flink广播算子Broadcast

这个方法的返回参数是 BroadcastConnectedStream,具有类型方法 process(),传入一个特殊的 CoProcessFunction 来书写我们的模式识别逻辑。这样做的原因是,Flink 中是不存在跨 task 通讯的。所以为了保证 broadcast state 在所有的并发实例中是一致的,我们在处理广播流元素的时候给予写权限,在所有的 task 中均可以看到这些元素,并且要求对这些元素处理是一致的, 那么最终所有 task 得到的 broadcast state 是一致的。

2025-03-24 01:11:10 646

原创 es的几种请求整理

【代码】es的几种请求整理。

2024-10-11 00:56:43 1346

转载 rocksdb 整理

文章1文章2文章3文章4文章5。

2024-09-17 16:59:10 667

原创 ES 索引或索引模板

当需要为同一类索引应用相同的配置、映射、别名时,如果每次创建索引都逐一配置会比较麻烦。索引模板的出现正是为了简化这种操作,使用索引模板你可以方便地为某一类索引自动配置某些共同的参数。索引模式(如 user_data_*,会生成例如:user_data_2024_08,user_data_2024_09索引。

2024-09-16 22:56:01 972

原创 java基础(小技巧)

文章目录一、日志输出二、字符串拼接三、日期比较四、常用注解五、Lombok的原理提示:以下是本篇文章正文内容,下面案例可供参考一、日志输出之前使用的方式。在要使用的类里面定义日志类:private static Logger logger = LoggerFactory.getLogger(“xxx”);现在使用方式:### pom.xml配置文件引入依赖 <dependency> <groupId>org.projectlombok&l

2024-09-16 18:11:50 1506

转载 Flink RocksDB 状态后端参数调优

Flink 作业中的每一个注册的状态都对应一个列族(column family),即包含自己独立的 memtable 和 sstable 集合。之前笔者已经详细讲解过 RocksDB 的 compaction 策略,并且提到了读放大、写放大和空间放大的概念,对 RocksDB 的调优本质上就是在这三个因子之间取得平衡。而在 Flink 作业这种注重实时性的场合,则要重点考虑读放大和写放大。block cache 则扮演读缓存的角色,采用 LRU 算法存储最近使用的 block,对读性能有较大的影响。

2024-09-03 00:39:55 554

原创 kafka常用命令汇总

它用于指定一个或多个 Kafka broker 的地址,通常用于启动消费者、生产者以及其他不需要直接与 ZooKeeper 交互的命令。在使用 Kafka 命令行工具时,–zookeeper 和 --bootstrap-server 参数用于指定不同的连接信息,具体取决于你使用的命令以及 Kafka 版本。说明:可以看到哪个topic有哪些消费组消费,消费的偏移量位置,还可以知道程序消费到哪个便宜量位置处。表示最新的偏移量(写入kafka各个分区最后一条数据的偏移量),或。最早的(各个分区)偏移量值。

2024-08-26 00:13:33 831

原创 flink周边使用技巧与汇总

如果只需要将数据发送到 Sink 而不需要容错机制,可以选择使用addSink。如果需要 Sink 支持状态管理和容错,则应该使用sinkTo。

2024-08-22 08:31:00 1068

原创 flink读写案例合集

提示:这里主要总结在工作中使用到的和遇到到的问题:Java flink版本1.15+} }} }} }} }} }} }import org} }} }} }} }} }@Override在低版本的flink-connector-kafka中,不支持KafkaSerializationSchema。

2024-08-21 00:57:03 688

原创 ConcurrentModificationException问题解决

举例:将相同的key和修改完成的value再put到mapvalue中是可以的(前提是key相同时可以,如果key不同,则相当于mapstate新增数据会报错)这是最安全的方法之一,因为它提供了 remove() 方法来移除当前元素。mapvalue也是上面类似的操作。通过遍历使用 iterator.remove();总共情况在Java hashmap和flink mapstate操作不当都会报这个错。如果想对mapvalue 在循环遍历时修改value值是可以的。中修改集合(移除已有的或新增)。

2024-08-20 08:50:37 687

原创 windows本地kafka和zookeeper单机版

总结:上面总共开启了3个cmd。zookeeper配置环境变量,在cmd中可以不指定路径,直接执行。kafka没有配置环境变量,要有路径执行。在config目录下复制一份zoo_sample.cfg文件到同级目录,然后更改名称为zoo.cfg。server.properties配置完后,需要在kafka_2.12-3.5.1目录下。2).cmd启动zookeeper客户端(可以不用启动,截图略)1).cmd启动zookeeper服务端运行。1).新建zookeeper系统变量。2).添加配置path。

2024-08-20 00:54:42 1393

原创 flink DataStream Operator算子操作举例

上面介绍了 DataStream 的常用算子,其实上面也有一些算子也是同样适合于 DataSet 的,比如 Map、FlatMap、Filter 等(相同的就不再重复了);也有一些算子是 DataSet API 独有的,比如 DataStream 中分区使用的是 KeyBy,但是 DataSet 中使用的是 GroupBy。即第一个元素和第二个元素处理得到一个新的元素,新的元素再和第三个元素做处理…以上示例是在 5 秒的窗口中连接两个流,其中第一个流的第一个属性的连接条件等于另一个流的第二个属性。

2024-08-12 00:33:21 880

原创 快捷工具(提升工作效率)

提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-07-14 10:18:19 763

原创 flink cdc mysql整理与总结

1、FlinkCDC 提供了对 Debezium 连接器的封装和集成,简化了配置和使用的过程,并提供了更高级的 API 和功能,例如数据格式转换、事件时间处理等。Flink CDC 使用 Debezium 连接器作为底层的实现,将其与 Flink 的数据处理能力结合起来。通过配置和使用 Flink CDC,您可以轻松地将数据库中的变化数据流转化为 Flink 的 DataStream 或 Table,并进行实时的数据处理、转换和分析。2、Flink的DataStream和SQL比较成熟和易用。

2024-05-26 17:28:25 2009

翻译 flink要点

在 Flink 的 Aligned checkpoints 机制中,当触发检查点操作时,所有并行任务都会暂停当前的处理,并等待所有上游数据的检查点栅栏(Checkpoint Barrier)到达。相对于传统的 Aligned checkpoints,Unaligned checkpoints 提供了更高的效率和更低的处理延迟。在 Flink 中,Timer(定时器)是处理时间相关逻辑的核心机制之一,尤其适用于需要在特定时间点执行操作的场景。:在基于时间的窗口操作中,Timer 用于触发窗口的计算与关闭。

2024-05-21 17:33:25 214

原创 flink优化案例

CheckPoint说明:每个需要checkpoint的应用在启动时,Flink的JobManager为其创建一个CheckpointCoordinator,CheckpointCoordinator全权负责本应用的快照制作。CheckpointCoordinator周期性的向该流应用的所有source算子发送barrier;

2024-05-13 17:30:41 1941 1

原创 flink sql 优化

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外,例如写数据库),增加资源只会让job性能越来越差或报错(亲身经历job性能差,特别痛苦,一直加资源性能还是差或运行报错)。需要不断找根源问题,多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是很差(资源给的很多性能还是不理想)(略增加一些资源)可以将一个job拆分两个job(将占用比较多的业务数据(50%更好)在新的job单独处理)

2024-05-05 20:14:13 3273 6

原创 使用工具速记

2).数字越小显示的越多(影响范围:浏览器的上边框宽窄,窗口的下面任务栏宽窄等)2).其他软件信息导入导出略。3).idea 不支持将之前打开项目记录导出。1).窗口单击右键->显示设置->缩放与布局。1).浏览器书签栏导出导入,网上很多,略。4).临时查询脚本不能导出(另存文件)3).导出的是sycs文件。2).选择要导的账号信息。

2024-04-26 11:44:43 530

原创 k8s安装流程

提示:安装之前参考很多好文章,写此文章作为永久免费开放,同时增加自己安装k8s记忆和理解节点名称节点IPmasterslave1slave2其他软件信息软件名版本信息说明17 Pro虚拟化软件(在win11平台安装)Windterm2.6.0linux连接工具(类似于xshell,但比它更强大,不用设置字体色彩更丰富)linuxcentos7必须是centos7或以上版本,否则低centos版本k8s不支持k8sv1.16.0容器(如docker)编排框架。

2024-04-14 20:08:22 2859

原创 k8s安装遇到问题合集

或有类似的问题,大部分都是kube-flannel.yml的问题,这里建议使用我的文件上传到主节点即可。根据上图可以很明显看到,dashboard的数据包直接被REJECT(拒绝)了,找到原因就好办了,设置成允许(ACCEPT)就行。dashboard的镜像拉取成功,容器创建成功,但容器在启动的时候启动失败,状态为CrashLoopBackOff。4)把创建的dashboard pod删掉并重启下docker,再次创建dashboard,创建成功。从节点解压完成后在主节点查看所有节点状态都是ready。

2024-04-13 21:44:03 1533

原创 jar冲突与解决方式

提示:主要排查java冲突或解决jar包冲突。语言:java/scala。

2024-04-12 20:21:58 2820

原创 linux(centos7)安装

准备部分:软件镜像地址(阿里云):https://developer.aliyun.com/mirror/虚拟化镜像软件:wmware或VirtualBox连接工具:Xshell或windTerm本地电脑:windos11系统linux版本:centos71).wind本地电脑安装linux还是很简单的,没有什么难点2).上述安装linux7 是为安装docker和k8s做准备,因为linux6或低版本不支持k8s等软件。

2024-03-31 17:31:23 810

k8s安装遇到问题合集

k8s安装遇到问题合集

2024-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除