qzWsong-CSDN博客

原创大数据重要操作

经纬度计算 GeoHash,相同区域内根据lng，lat和GeoHash方法得出的结果相同<dependency><groupId>ch.hsr</groupId><artifactId>geohash</artifactId><version>1.3.0</version></dependency>GeoHash.geoHashStringWithCharacterPrecision(l

2021-03-09 22:16:56 882

原创 flink将窗口增量聚合算子和窗口全量聚合算子连用

将滚动聚合窗口和全量聚合窗口连用，即利用了滚动聚合性能好，资源占用率低的优点，又能拥有全量窗口函数中的窗口信息，此时的迭代器中只有1条：当所有的数据reduce完成后在经过一次窗口函数，因此窗口全量聚合算子中只有一条reduce聚合后的数据。

2024-09-25 09:32:45 148

原创 java，zip压缩文件，指定目录结构

【代码】java，zip压缩文件，指定目录结构。

2024-09-19 15:20:21 115

原创 flink checkpoint barrier对齐机制

一个subtask的数据如果只来自于上游的一个subtask，此时遇到barrier后直接备份当前状态，并且向jobmanager发送ack响应。如果一个subtask来自上游多个subtask，因为上有subtask的barrier到达有早有晚，上游最早的barrier到达之后，收到其他上游数据后被缓存到内存中，不会进行处理，直到上游最晚的barrier到达后，这个subtask会进行一次状态备份，并且向jobmanager发送ack响应。jobmanager 收到所有的ack响应后。

2024-08-27 10:16:37 303

原创 vue2项目gzip加速

找到生效的webpack配置文件。

2024-08-23 13:37:02 235

原创 flink 使用RocksDB作为状态后端

flink在生产环境中常用RocksDB作为状态后端1、subtask在taskmanager中作为一个线程运行，如果设置了RocksDB状态后端，RocksDB也会启动一个独立的线程，供subtask来使用。2、RocksDB是一个kv数据库，因此只能存储flink的键控状态，算子状态还是会放到subtask中。3、RocksDB会单独占据一块flink内存，它不受JVM GC管控4、RocksDB会把数据存储到taskmanager所在磁盘上。

2024-08-22 16:57:52 474

原创主机无法访问wsl内部

wslconfig 关闭镜像ip就行，注释掉，用localhost就能访问。

2024-08-20 17:15:14 118

原创 Flink 流转表，表转流，watermark设置

流转表的时候有一个点要注意，watermark必须要重新指定，否则会丢失，常用的方式如下。

2024-08-19 17:22:48 434

原创 flink任务提交、内存、并行度设置

standalone：包括 standalone-session standalone-application。但是 per-job被官网废弃了，用application替代per-job！flink任务提交方式有3种 session、per-job、application三种。flink任务运行底座也有三种，Standalone、yarn、k8s。原则上一个flink任务运行的方式由3*3=9种，但是有些是没法搭配的。yarn：包括yarn-session 、k8s: 包括 k8s-session、

2024-08-14 14:14:01 269

原创 doris 数据导入、数据权限、资源管理

/ skip_lines: 整数类型, 默认值为0, 含义为跳过csv文件的前几行. 当设置format设置为 csv_with_names 或、csv_with_names_and_types 时, 该参数会失效.// strict_mode 严格模式，由于数据库设置了字段类型，在由文本中的字符串数据转换到数据库字段类型失败时，严格模式会认为该条数据是错误数据。// 如hive文件的分隔符\x01，需要指定为-H "column_separator:\x01"。# FE(65服务器)

2024-06-20 16:12:47 677

原创 Doris建表注意事项

KEY想要做key的字段必须是非空字段（NOT NULL） key字段必须从表的第一个字段开始选择，并且需要连续选择，不可跳跃选择 eg: 表的字段为 a,b,c,d 四个字段，那么key只能选择a、ab、abc、abcd 四种VALUE分组聚合模型中，value列必须设置聚合方式字符串类型无法进行sum分区 KEYRange 分区支持的列类型：[DATE,DATETIME,TINYINT,SMALLINT,INT,BIGINT,LARGEINT] List 分区支持的列类型： [

2024-04-08 14:39:40 266

原创 Flink on Kubernetes (flink-operator) 部署Flink

部署cluster完成，配置svcType 后即可访问，flink web ui，此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径，然后使用远程文件下载放到挂载路径中，containers就能获取到该jar包。此处jarURL只得是docker内部路径，且不支持远程路径（http/s3/hdfs），因此需要将jar包放到docker内部。2、可以使用pvc挂载进去。

2024-03-27 15:01:53 1303

原创 k8s运维命令小工具

clusterrolebinding 为一个指定的 ClusterRole 创建一个 ClusterRoleBinding。rolebinding 为一个指定的 Role 或者 ClusterRole创建一个 RoleBinding。service 使用指定的 subcommand 创建一个 service.serviceaccount 创建一个指定名称的 service account。

2024-03-13 13:47:32 641

原创 dolphinscheduler k8s部署

我是两节点的虚拟机，环境资源如果不够在启动的时候会有很多异常，测试的时候其实只需要修改一个资源需求就行。按照他官网的指示我的操作不生效，因此，手动指定scv暴露方式为 NodePort。由apache/dolphinscheduler 改成apache。有可能是我修改了bitnami的仓库地址导致此处才需要修改。配置了采用本地文件系统，不使用s3，hdfs。原bitnami仓库地址会有问题改成这个。

2024-03-07 14:28:45 379

原创访问https网站，edge浏览器，thisisunsafe不生效

打开控制台输入。

2024-03-07 11:18:57 1340 3

原创 sqoop事务如何实现

场景1：如Sqoop在导出hdfs数据到Mysql时，某个字段过长导致任务失败，该错误记录之前的数据正常导入，之后的数据无法导入。如何保证错误发生后数据回滚？场景2：如Sqoop在导出hdfs数据到Mysql时，某个字段重复导致主键冲突，该错误记录之前的数据正常导入，之后的数据无法导入。如何保证错误发生后数据回滚？

2024-01-17 15:45:10 591

原创 kafka topic分区数设定

测试结果：31.89 34.10 前后对比可以得知，每次发送70000条记录时效率最高，此时吞吐量 70000*1KB/s 70MB/s。--producer-props bootstrap.servers=localhost:9092 # 指定服务。kafka-producer-perf-test.sh # 生产者测试。--num-records 300000 # 总共300000条数据。kafka-consumer-perf-test.sh # 消费者测试。# 消费者吞吐量测试工具。

2024-01-11 10:22:36 1285

原创 spark的任务提交方式及流程

测试用,不多赘述。

2024-01-05 16:35:59 596

原创 Easycode模板，基于官方提供的Mybatis-plus模板改造

Easycode模板，逆向工程,单表增删改查，从前端到后端不需要任何一点代码

2024-01-05 16:16:10 1336

原创 ambari失败重装重置环境

ambari失败重装重置环境

2023-10-19 17:21:54 264

原创 Flink中jobmanager、taskmanager、slot、task、subtask、Parallelism的概念

一个工厂有三个车间每个车间两条生产线生产流程如下原料->加工->过滤->分类->美化->包装->下线。

2023-10-10 15:32:35 727

原创关于flink重新提交任务，重复消费kafka的坑

1、savepoint的数据要比checkpoint更加稳定，比如你可以通过移动（拷贝）savepoint 目录到任意地方，然后再进行恢复。checkpoint就不可以，因为他有很多相对路径配置。2、savepoint和checkpoint一般都能作为恢复点使用，例外情况是使用 RocksDB 状态后端的增量 Checkpoint。他们使用了一些 RocksDB 内部格式，而不是 Flink 的本机 Savepoint 格式。

2023-10-08 14:30:33 1974

原创分布式程序中YARN中的角色

和。

2023-09-21 15:35:36 481

原创 vue-webpack代码混淆、代码压缩设置

压缩为gz包后，是否删除源js文件，如果设置为true nginx需要额外配置资源文件目录。只需要第一个插件即可，后边两个可以有可以没有。可以在这个网站测试自己需要的混淆方式。

2023-08-03 14:40:42 1265

原创常用正则表达式

正则表达式 a和b之间只能有空格，或者没有空格。正则表达式 a之前只能有空格或者逗号。

2023-07-06 09:22:08 105

原创 Flink动态ClickhouseSink+自动建表

通过自定义注解的形式，对JdbcSink进行封装，支持自动建表、自动拼接insert语句

2023-07-04 14:29:05 1643

原创 doris docker部署和本地化部署 1.2.4.1版本

以下操作语句按顺序执行即可，如果需要改动的地方会有${}注释，其余不需要任何改动，默认安装版本为1.12.4。

2023-06-15 17:48:32 2886 1

原创 seatunnel入门案例，集群模式

启动任务之后会有一个jobid，如果直接kill 进程是不管用的，seatunnel任务依然会执行，需要使用 -can jobid 结束任务。seatunnel 包括三种执行引擎。

2023-06-13 17:32:40 3003

原创 ldap服务安装，客户端安装，ldap用户登录验证测试

5、验证LDAP，使用客户端计算机上的LDAP用户“ hiveuser” 登录。2、配置ladp账号密码域名。3、重启LDAP客户端服务器。

2023-06-07 17:09:27 1417

原创 Kafka开启SASL认证，访问速度很慢

kafka集群开启sasl配置后，本地电脑使用kafkatools连接kafka集群速度非常非常慢，但是生产环境的kafkaconsumer却很快，而且不采用sasl模式也是很快的，最后在本地hosts添加kafka集群的域名配置，连接地址采用域名不使用Ip就可以了。

2023-06-05 14:26:18 810

原创 Flink on yarn任务日志怎么看

在flink的webui中可以看，但是flink任务失败后，webui就不存在了，那怎么看？

2023-05-30 14:29:01 3479 3

原创排查linux大文件

sudo du -ah / | grep "[0-9]G\b"

2023-05-29 16:08:46 109

原创 flink广播流与主数据流加载顺序问题，怎么保证字典数据优先加载

flink怎么保证广播流比数据流先到？前置条件：flink cdc 监听字典表并广播，主流消费kafka设置消费模式为earliest如果当字典表数据稍微大了点，那么主流数据会比广播流数据到的早

2023-05-18 17:19:20 893

原创 Flink dataStream，如何开窗，如何进行窗口内计算

增量聚合的缺点过于明显，但是平时的业务对于全量窗口的需求又没这么高，因此Flink提供了一个增量聚合函数携带全量聚合函数的混合使用API，数据处理逻辑还是走增量聚合的逻辑，省资源、效率高，但是一个窗口的数据处理完成后，会调用一次全量窗口函数。优点：可以获取整个窗口的全量数据，对数据的可处理性更强，比如排序。开完窗口后数据的处理方式，首先要对数据进行聚合，聚合的方式分两种，一种全量聚合，一种增量聚合。每个窗口的所有数据调用一次该函数，在这个函数中有个迭代器，可以获取当前窗口的所有数据。

2023-05-09 10:18:05 1023

原创 FlinkSql，如何开窗，如何进行窗口内计算

将表应用一下TVF(table-valued function )函数，返回一个开窗的表，开窗TVF函数目前有三个。直接查询，报错，对于开窗后的表需要用，window_start,window_end。以最简单的Tumble，滚动窗口作为例子，无论什么开窗方式，查询方法是一样的。问题：每10分钟求最近10分钟交易额最大的前2条记录。问题：每10分钟求最近10分钟的总交易额。

2023-04-26 15:31:26 1895 1

原创 Flink 双流Join

对处于同一窗口的数据进行join时间类型：processTime、eventTime问题：1、不在同一窗口的数据无法join，2、只能inner join。

2023-04-26 11:29:14 1106

原创 java Poi操作Excel,插入行,保留行格式

动态Excel，如何在指定行后插入一定数量的空行，并且拷贝指定行的样式

2023-03-30 16:46:51 3722 1

原创常用docker容器安装，mysql,redis,clickhouse,elasticsearch

常用docker容器。

2023-03-27 10:15:15 214

原创 Win11升级后Edge打不开解决办法

Win11升级后Edge打不开联想电脑请卸载掉自带的联想电脑管家

2023-03-16 09:56:45 1000 2

原创 spark RDD中的并行度、分区器默认策略

yarn：getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2))，根据spark.default.parallelism参数，如果没配置就是yarn的executor的总逻辑核数，最小也得两个并行度。如果上游所有rdd中的最大并行度/最大分区器所在rdd的并行度

2023-03-14 13:57:21 920

apache-dolphinscheduler-3.1.9-bin.tar.gz

官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢官网下载很慢

2024-05-30

easycode模板，包含前端代码生成

1、接口类默认继承实体类实体类不做任何修改保证类与表统一，不使用冗余的vo dto，一个dto解决所有问题 2、实体类涵盖多种注解日期格式编码、Long类型转String、字段自动填充、validate校验 3、自带insertOrUpdateBatch方法 4、自动生成前端的增删改查页面（vue 2.x，前端模板由于基础框架原因，需要自己稍微改动一下，之后可以直接生成） 5、牛逼的导入导出解决方案支持导出模板、导出数据支持导入校验，字符长度校验，日期类型校验，布尔类型校验，小数精度校验上传文件，如果异常会返回批改后的文件（红色字体批注）容错导入，正常数据会自动导入，异常数据会批改后返回详情见 https://blog.csdn.net/java_creatMylief/article/details/135412341

2024-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

apache-dolphinscheduler-3.1.9-bin.tar.gz

easycode模板，包含前端代码生成

dolphinscheduler k8s部署

MySQL-client-server-5.6.26-1.linux_glibc2.5.x86_64.rar

nacos-server-1.1.3.zip

转换office为pdf时 jodconverter-2.2.2 之前的jar包都是不支持高版本office的

mysql 5.6 yum版 一键安装

8天学会hadoop2+storm

hadoop storm spark 机器学习

MySQL-client-5.5.54-1.linux2.6.x86_64.rpm

空空如也

mysql 5.6 yum版一键安装