我先森-CSDN博客

原创【实战-01】flink cdc 实时数据同步利器

对很多初入门的人来说是无法理解cdc到底是什么个东西。有这样一个需求，比如在mysql数据库中存在很多数据，但是公司要把mysql中的数据同步到数据仓库(starrocks), 数据仓库你可以理解为存储了各种各样来自不同数据库中表。数据的同步目前对mysql来说比较常见是方式是使用：datax 和 canal配合，为什么需要这两个框架配合呢？因为datax不支持实时的同步， datax只能定义一个范围去同步，而且同步结束后程序就结束了。

2022-12-21 17:17:25 10745 1

原创十三.Elasticsearch 分析器-analyzers

目录摘要：一：认识analyzers三大组件1.Character filters （字符过滤器）2.Tokenizer （分词器）3.Token filters （token过滤器）二：各种分析器Analyzer 介绍2.1Standard Analyzer（标准分析器） 2.11拓展标准分析器的语法2.12自定义分析器的语法2.2Sim...

2019-09-26 17:35:01 2120

原创二.elasticsearch 为什么合并segment

目录1:优化所需要的空间2：为什么合并segment可以达到优化效果3：优化的时机1:优化所需要的空间segment优化是需要将将多个segment合并成，以减少segment的数量，在新的segment合并完成之前旧的较小的segment是不会删除的，比如说此时你的总磁盘大小是10T ，segment已经占用了7T这个时候进行合并很可能会出问题，导致磁盘不够用，这个问题...

2019-05-28 15:22:15 3145 1

原创 java获取elasticsearch所有的数据

注意：下面的代码是用的java-high客户端在贴出程序之前先提出几个问题，首先在搜索引擎中任何时候涉及到批量数据处理的时候，都不可能在一次请求中获取到所有的数据，这样是为了节省内存，而且全部拿到也不现实，一般都是分页获取的，也就是说先给你展示，下一页的话通过你的点击会从上次展示的位置往后获取数据，而这个位置你可以理解为位置指针。就这样循环获取循环请求才能真正的将数据全部拿到。下面的程序...

2019-03-14 17:47:08 12291 7

原创 centos7 linux网卡配置

TYPE="Ethernet"BOOTPROTO="static"//意思是使用静态ip而不是动态分配DEFROUTE="yes"PEERDNS="yes"PEERROUTES="yes"IPV4_FAILURE_FATAL="no"IPV6INIT="yes"IPV6_AUTOCONF="yes"IPV6_DEFRO

2017-11-24 11:21:33 1216

原创 datax 加密

datax本身实际上支持对json中某个key的value加密，但是官方并没有详细的文档，毕竟开源让你免费用就不错了，公布不负有心人，通过对源码部分的阅读找到了如何使用加密的方式，本文将按照步骤讲解。datax任务四json配置的，涉及到数据库连接的密码也是明文存储的，严格来说存在账户密码泄露的风险，因此本文主要讲解如何对密码进行加密。

2025-05-15 14:25:44 360 1

原创 35. python实现配置类加载一次，且线程安全

单例配置类

2025-04-18 17:23:28 122

原创 datax 按天导数，并提供自动重启

可实现按天datax导数据，并支持失败自动重启，减少人工干预。背景：clickhouse有三年的老数据，一次性全导出肯定报错内存不足，因此只能逐天导出，但是经常因为网络原因失败，因此提供了monitor.sh脚本支持自动重启。

2024-12-04 14:27:59 434

原创 java 正则匹配json中占位符

对于一些框架研发的时候，一些json配置文件我们可以使用占位符语法，然后可通过-Dkey=value传递到系统参数中，最后正则替换掉。

2024-11-06 18:28:43 336

原创 [实战-12] flinkSql 时间属性

在阅读下面知识之前，读者需要先看Flinksql设置时区。

2024-11-01 15:43:09 1358

原创 [实战-11] FlinkSql 设置时区对TIMESTAMP和TIMESTAMP_LTZ的影响

设置flink程序运行期间得时区，flink的内置数据类型TIMESTAMP(3)，我们设置水位线都是基于TIMESTAMP(3)类型，当我们flinkSql 查询flink表的时候，因为时区不同 TIMESTAMP 展示给我们的字符串也是不同的。mysql时区是Asia/Shanghai。

2024-10-31 12:36:41 1522 1

原创 34.python 执行代码片段，并获取日志

留给有缘人

2024-10-16 16:05:05 254

原创 [sql-04] 连续出现至少三次的数字

【代码】[sql-04] 连续出现至少三次的数字。

2024-09-29 16:36:00 477 1

原创 [sql-03] 求阅读至少两章的人数

【代码】[sql-03] 求阅读至少两章的人数。

2024-09-27 15:43:43 397

原创 33.python socket

python socket 心跳包数据包

2024-08-27 15:58:06 3015

原创 32.python打开伪终端，模拟python解释器交互

意思是模拟一个代码控制的终端，类似于你用xshell打开的终端，支持在代码中发送要执行的代码。并获取输出。

2024-08-08 15:54:12 374

原创 31.python ssh执行远程代码，并实时获取日志

paramiko

2024-08-02 10:05:10 646

原创 30. python sys.stderr重定到sys.stdout 并同时将输出归档一份到文件

对于远程执行python的时候，调用者可能需要将错误和标准输出都放一个文件。

2024-07-23 12:31:43 327

原创 29. python装饰器

python装饰器

2024-07-18 18:58:27 283

原创 28. python实现单例的几种方式

python实现单例的几种方式

2024-07-18 18:26:30 273

原创 27. python new 深入探讨

python __new__

2024-07-18 17:58:36 467

原创 27. python setarrt() getattr()使用场景

python __setarrt__() __getattr__()使用场景

2024-07-18 15:45:33 267

原创 24. python使用上下文管理器

【代码】24. python使用上下文管理器。

2024-07-16 15:08:48 340 1

原创 24.自定义python日志handler

可实现日志打印在控制台的同时，输出到文件中且文件根据%Y%m%d或者%Y%m%d%H自动决定按天还是按小时分割代码比较简单，比直接用自带的方便一些。

2024-06-17 18:19:32 303 1

原创 23. python杀死指定进程极其子进程

【代码】23. python杀死指定进程极其子进程。

2024-05-24 12:05:15 631

原创 23. python父进程如何将子进程的日志直接输出到文件

subprocess.Popen() 可以执行shell命令，可以执行python文件，可以执行java jar包。因此在进程大型框架研发的时候会经常用到，这样的话其实子进程完全可以避免将日志打印在文件中，直接输出到控制台即可。日志可用上面的方式由父进程进行收集。

2024-05-22 16:16:37 569

原创 22. python如何更改logging模块的数据传输通道

stdout 和stderrpython的日志StreamHandler源码如果我们想把error以及以上的日志用sys.stderr其它的用sys.stdout该怎么做？应用场景。

2024-05-22 15:39:04 583 1

原创【Sql-02】求每个省份最新登陆的三条数据

要求输出，userid_1,logtime_1,userid_2,logtime_2,userid_3,logtime_3。

2024-05-07 10:17:56 367

原创 java volatile

需要注意的是，尽管 volatile 保证了每次读取的都是最新的值，并且每次写入都会立即反映到主内存中，但它并不能保证加一操作的原子性。这意味着如果有多个线程同时对这个 volatile int 变量执行加一操作，它们可能会读取到相同的旧值，并在此基础上进行加一，导致最终的结果比预期的要小。如果需要确保加一操作的原子性，应该使用原子类（如 AtomicInteger）中的 incrementAndGet() 方法，或者使用 synchronized 关键字或其他锁机制来同步对这个变量的访问。

2024-03-19 15:46:13 298 1

原创【shell-14】java获取shell设置的环境变量

在底层框架研发中, 框架启动脚本，在调用核心入口类之前需要先获取以及解析环境变量，然后解析到的环境变量可能想要在框架启动类中做info日志输出。

2024-03-13 18:09:50 631 1

原创【shell-13】shell解析配置文件(正则)

shell 正则解析配置文件，代码适合在大型框架性应用中使用，稳定性经过我们的验证。

2024-03-12 10:49:47 455

原创【shell-12】find查找目录所有路径，循环输出

read 命令用于从标准输入（stdin）读取一行数据，并根据定界符（delimiter）分割当前行数据，将分割后的数据赋值给一个或多个变量，默认的界定符 \n, 可通过参数-d指定界定符。- 想要识别为换行符需要语法格式为： $‘ASCII转义字符’ ，例：$‘\n’, $'\t’等。意思是不输出表面的字符串样式，而是按照转义字符处理。- 在单引号字符串中，\n 会被当作普通字符。shell识别转义字符。

2024-03-11 16:35:10 798

原创【shell-11】获取当前执行脚本的路径

本代码在框架开发比较有用，比如别人安装了你开发的东西，你的启动脚本都在自己的某个 bin目录下，但是使用者可能ln -s /…/…/bin/start_demo.sh /home/张三/start.sh 建立了一个软连接，因此有时候我们可能需要获取真实bin路径。

2024-03-11 12:15:48 1337

原创 java空字符和空的区别

ASCII 编码表，中前三十个左右都是控制字符，控制字符的意思是可以实现一些控制，而不仅仅是表面人眼看到的字符的样子。unicode 表示方式是：\u0000 八进制表示方式是\000 十六进制表示方式是\x00。空字符：是一个不可见的字符，再控制台打印的时候它是不存在的，但是物理意义上是存在的。比如图中十进制10 表示换行。请找到对应的行，我们来解读。\u0000: 指的是空字符。“” : 表示空字符串。

2024-03-08 15:23:58 611

原创一.jwt token 前后端的逻辑

jwt token 前后端的交互逻辑，此部分只描述了一些交互逻辑，不涉及到真实应用的开发。

2024-03-04 12:17:33 660

原创【实战-08】 flink自定义Map中的变量的行为

则当前线程的valueState是和某一个key绑定的，符合flink预期行为，但是ArrayList以及其它你定义的变量则不做保证。这说明了，keBy后的逻辑，ArrayList不会按照预期的行为执行。自定义Map或者别的算子的时候，有时候需要定义一些类变量，在flink内部高并发的情况下需要正确理解这些便令的行为。keyBy之后，理论上相同key的会在map中用同样的处理逻辑，我们的预期行为是输出：bb,cc,dd。但是用ArrayList实现的逻辑最终输出却是：bb,bc,cc,dd。

2024-02-26 12:22:38 470

原创 git基础

分支分为三种：master dev feature三种master和dev分支是项目管理人员创建的，不是开发人员创建的。开发人员不要在 master和dev分支上做任何修改。开发人员牢记一点，你只能在你自己创建的分支上写代码，你的分支基于dev分支手动创建的。

2024-02-23 12:27:25 1439

原创【kafka-01数据保留时间设置】

某天突然发现我的kafka中group_id消费记录不见了，特地查了下咋回事。众所周知新版本的kafka group_id消费的offset记录已经不存储在zookeeper上了，而是存储在__consumer_offsets 这个kafka内部自己管理的topic中，这个topic有50个分区。毫无疑问估计是group_id offset存储也应该是有时间过期值的，于是专门查了查。需要两个参数结合，且最好配置的时间是一样的，下面是例子。

2024-01-30 20:03:41 847

原创【shell-10】shell实现的各种kafka脚本

因为经常要用kafka环境参与测试，所以写了不少脚本。在很多时候可以大大提高测试的效率。topic数据传输【file数据录入到topic,topic数据下载到本地文件】此文件是个额外的日志文件主要用于打印日志，该文件会被下面的shell文件引用。topic信息查看【topic列表，topic groupid 消费情况】脚本中做了各种检查，日志的输出做了颜色区分，用起来没啥问题。topic的管理【创建，删除】

2024-01-26 12:07:21 2494

原创【shell-09】 shell控制台颜色输出

分析->这里的 \012 意思就是12这个数字是是实现做控制的，\0作为控制标志位，指的就是八进制，\012 用八进制实现的控制，实际上转成十进制就是->10 找到下图中，10对应的就是**\n**，同理\x也是控制位标志符，指的是用十六进制， 10 的八进制是12，十六进制是 A。分析：echo -e 的意思：如果字符串中出现某些特定的字符组合（转义字符），echo会将这些字符组合解释为特殊的含义，而不是将其作为普通文本输出。其中有一个字符是控制终端颜色的，十进制就是。

2024-01-23 19:45:51 894

spark解析csv文件，存入数据库

java 配置porperties简单易懂

空空如也