- 博客(194)
- 资源 (6)
- 收藏
- 关注
原创 大数据重要操作
经纬度计算 GeoHash,相同区域内根据lng,lat和GeoHash方法得出的结果相同<dependency><groupId>ch.hsr</groupId><artifactId>geohash</artifactId><version>1.3.0</version></dependency>GeoHash.geoHashStringWithCharacterPrecision(l
2021-03-09 22:16:56 882
原创 flink将窗口增量聚合算子和窗口全量聚合算子连用
将滚动聚合窗口和全量聚合窗口连用,即利用了滚动聚合性能好,资源占用率低的优点,又能拥有全量窗口函数中的窗口信息,此时的迭代器中只有1条:当所有的数据reduce完成后在经过一次窗口函数,因此窗口全量聚合算子中只有一条reduce聚合后的数据。
2024-09-25 09:32:45 148
原创 flink checkpoint barrier对齐机制
一个subtask的数据如果只来自于上游的一个subtask,此时遇到barrier后直接备份当前状态,并且向jobmanager发送ack响应。如果一个subtask来自上游多个subtask,因为上有subtask的barrier到达有早有晚,上游最早的barrier到达之后,收到其他上游数据后被缓存到内存中,不会进行处理,直到上游最晚的barrier到达后,这个subtask会进行一次状态备份,并且向jobmanager发送ack响应。jobmanager 收到所有的ack响应后。
2024-08-27 10:16:37 303
原创 flink 使用RocksDB作为状态后端
flink在生产环境中常用RocksDB作为状态后端1、subtask在taskmanager中作为一个线程运行,如果设置了RocksDB状态后端,RocksDB也会启动一个独立的线程,供subtask来使用。2、RocksDB是一个kv数据库,因此只能存储flink的键控状态,算子状态还是会放到subtask中。3、RocksDB会单独占据一块flink内存,它不受JVM GC管控4、RocksDB会把数据存储到taskmanager所在磁盘上。
2024-08-22 16:57:52 474
原创 flink任务提交、内存、并行度设置
standalone:包括 standalone-session standalone-application。但是 per-job被官网废弃了,用application替代per-job!flink任务提交方式有3种 session、per-job、application三种。flink任务运行底座也有三种,Standalone、yarn、k8s。原则上一个flink任务运行的方式由3*3=9种,但是有些是没法搭配的。yarn:包括yarn-session 、k8s: 包括 k8s-session、
2024-08-14 14:14:01 269
原创 doris 数据导入、数据权限、资源管理
/ skip_lines: 整数类型, 默认值为0, 含义为跳过csv文件的前几行. 当设置format设置为 csv_with_names 或、csv_with_names_and_types 时, 该参数会失效.// strict_mode 严格模式,由于数据库设置了字段类型,在由文本中的字符串数据转换到数据库字段类型失败时,严格模式会认为该条数据是错误数据。// 如hive文件的分隔符\x01,需要指定为-H "column_separator:\x01"。# FE(65服务器)
2024-06-20 16:12:47 677
原创 Doris建表注意事项
KEY想要做key的字段必须是非空字段(NOT NULL) key字段必须从表的第一个字段开始选择,并且需要连续选择,不可跳跃选择 eg: 表的字段为 a,b,c,d 四个字段,那么key只能选择a、ab、abc、abcd 四种VALUE分组聚合模型中,value列必须设置聚合方式 字符串类型无法进行sum分区 KEYRange 分区支持的列类型:[DATE,DATETIME,TINYINT,SMALLINT,INT,BIGINT,LARGEINT] List 分区支持的列类型: [
2024-04-08 14:39:40 266
原创 Flink on Kubernetes (flink-operator) 部署Flink
部署cluster完成,配置svcType 后即可访问,flink web ui,此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径,然后使用远程文件下载放到挂载路径中,containers就能获取到该jar包。此处jarURL只得是docker内部路径,且不支持远程路径(http/s3/hdfs),因此需要将jar包放到docker内部。2、可以使用pvc挂载进去。
2024-03-27 15:01:53 1303
原创 k8s运维命令小工具
clusterrolebinding 为一个指定的 ClusterRole 创建一个 ClusterRoleBinding。rolebinding 为一个指定的 Role 或者 ClusterRole创建一个 RoleBinding。service 使用指定的 subcommand 创建一个 service.serviceaccount 创建一个指定名称的 service account。
2024-03-13 13:47:32 641
原创 dolphinscheduler k8s部署
我是两节点的虚拟机,环境资源如果不够在启动的时候会有很多异常,测试的时候其实只需要修改一个资源需求就行。按照他官网的指示 我的操作不生效,因此,手动指定scv暴露方式为 NodePort。由apache/dolphinscheduler 改成apache。有可能是我修改了bitnami的仓库地址导致此处才需要修改。配置了采用本地文件系统,不使用s3,hdfs。原bitnami仓库地址会有问题改成这个。
2024-03-07 14:28:45 379
原创 sqoop事务如何实现
场景1:如Sqoop在导出hdfs数据到Mysql时,某个字段过长导致任务失败,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?场景2:如Sqoop在导出hdfs数据到Mysql时,某个字段重复导致主键冲突,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?
2024-01-17 15:45:10 591
原创 kafka topic分区数设定
测试结果:31.89 34.10 前后对比可以得知,每次发送70000条记录时效率最高,此时吞吐量 70000*1KB/s 70MB/s。--producer-props bootstrap.servers=localhost:9092 # 指定服务。kafka-producer-perf-test.sh # 生产者测试。--num-records 300000 # 总共300000条数据。kafka-consumer-perf-test.sh # 消费者测试。# 消费者吞吐量测试工具。
2024-01-11 10:22:36 1285
原创 Easycode模板,基于官方提供的Mybatis-plus模板改造
Easycode模板,逆向工程,单表增删改查,从前端到后端不需要任何一点代码
2024-01-05 16:16:10 1336
原创 Flink中jobmanager、taskmanager、slot、task、subtask、Parallelism的概念
一个工厂有三个车间每个车间两条生产线生产流程如下原料->加工->过滤->分类->美化->包装->下线。
2023-10-10 15:32:35 727
原创 关于flink重新提交任务,重复消费kafka的坑
1、savepoint的数据要比checkpoint更加稳定,比如你可以通过移动(拷贝)savepoint 目录到任意地方,然后再进行恢复。checkpoint就不可以,因为他有很多相对路径配置。2、savepoint和checkpoint一般都能作为恢复点使用,例外情况是使用 RocksDB 状态后端的增量 Checkpoint。他们使用了一些 RocksDB 内部格式,而不是 Flink 的本机 Savepoint 格式。
2023-10-08 14:30:33 1974
原创 vue-webpack代码混淆、代码压缩设置
压缩为gz包后,是否删除源js文件,如果设置为true nginx需要额外配置资源文件目录。只需要第一个插件即可,后边两个可以有可以没有。可以在这个网站测试自己需要的混淆方式。
2023-08-03 14:40:42 1265
原创 doris docker部署和本地化部署 1.2.4.1版本
以下操作语句按顺序执行即可,如果需要改动的地方会有${}注释,其余不需要任何改动,默认安装版本为1.12.4。
2023-06-15 17:48:32 2886 1
原创 seatunnel入门案例,集群模式
启动任务之后会有一个jobid,如果直接kill 进程是不管用的,seatunnel任务依然会执行,需要使用 -can jobid 结束任务。seatunnel 包括三种执行引擎。
2023-06-13 17:32:40 3003
原创 ldap服务安装,客户端安装,ldap用户登录验证测试
5、验证LDAP,使用客户端计算机上的LDAP用户“ hiveuser” 登录。2、配置ladp账号密码域名。3、重启LDAP客户端服务器。
2023-06-07 17:09:27 1417
原创 Kafka开启SASL认证,访问速度很慢
kafka集群开启sasl配置后,本地电脑使用kafkatools连接kafka集群速度非常非常慢,但是生产环境的kafkaconsumer却很快,而且不采用sasl模式也是很快的,最后在本地hosts添加kafka集群的域名配置,连接地址采用域名不使用Ip就可以了。
2023-06-05 14:26:18 810
原创 flink广播流与主数据流加载顺序问题,怎么保证字典数据优先加载
flink怎么保证广播流比数据流先到?前置条件:flink cdc 监听字典表并广播,主流消费kafka设置消费模式为earliest如果当字典表数据稍微大了点,那么主流数据会比广播流数据到的早
2023-05-18 17:19:20 893
原创 Flink dataStream,如何开窗,如何进行窗口内计算
增量聚合的缺点过于明显,但是平时的业务对于全量窗口的需求又没这么高,因此Flink提供了一个增量聚合函数携带全量聚合函数的混合使用API,数据处理逻辑还是走增量聚合的逻辑,省资源、效率高,但是一个窗口的数据处理完成后,会调用一次全量窗口函数。优点:可以获取整个窗口的全量数据,对数据的可处理性更强,比如排序。开完窗口后数据的处理方式,首先要对数据进行聚合,聚合的方式分两种,一种全量聚合,一种增量聚合。每个窗口的所有数据调用一次该函数,在这个函数中有个迭代器,可以获取当前窗口的所有数据。
2023-05-09 10:18:05 1023
原创 FlinkSql,如何开窗,如何进行窗口内计算
将表应用一下TVF(table-valued function )函数,返回一个开窗的表,开窗TVF函数目前有三个。直接查询,报错,对于开窗后的表需要用,window_start,window_end。以最简单的Tumble,滚动窗口作为例子,无论什么开窗方式,查询方法是一样的。问题:每10分钟求最近10分钟交易额最大的前2条记录。问题:每10分钟求最近10分钟的总交易额。
2023-04-26 15:31:26 1895 1
原创 Flink 双流Join
对处于同一窗口的数据进行join时间类型:processTime、eventTime问题:1、不在同一窗口的数据无法join,2、只能inner join。
2023-04-26 11:29:14 1106
原创 spark RDD中的并行度、分区器默认策略
yarn:getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)),根据spark.default.parallelism参数,如果没配置就是yarn的executor的总逻辑核数,最小也得两个并行度。如果上游所有rdd中的最大并行度/最大分区器所在rdd的并行度
2023-03-14 13:57:21 920
apache-dolphinscheduler-3.1.9-bin.tar.gz
2024-05-30
easycode模板,包含前端代码生成
2024-05-20
转换office为pdf时 jodconverter-2.2.2 之前的jar包都是不支持高版本office的
2019-01-08
mysql 5.6 yum版 一键安装
2018-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人